生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

主成分分析

主成分分析

主成分分析的目的是就是对我们lncRNA的数据进行降维,比如说我们要对基因进行可视化,那么我们就需要对它进行降维,因为我们TCGA下载的数据,它所有的基因有五万多个基因样品,那我们怎么将这五万多样品进行展示呢?我们就需要对其降维,如果不降维的话,那我们这个图形就需要五万多维,每个基因他都是一个维度,所以我们可以通过pca降维的方法,将我们五万多基因降成pc1,pc2,pc3三维,这样我们就可以对它进行可视化,用一个3D的图形,把我们的样品全部展示出来,下面我们看一下具体的图形:

我们首先就是用模型lncRNA的进行一个可视化,我们可以看到这里高风险的病人,我们用红色表示,低风险的话就用绿色表示,在这个图里面我们可以看到高低风险可以很好的分开。

我们再看一下使用免疫基因进行可视化,就是我们将免疫基因的样品展示出来,也对他进行降维,我们看到这里红色的点主要聚集在右边,然后绿色的点主要聚集在左边,但是这个图的话它的红色和绿色的点的分离程度没有左边那个图清晰。因为左边这个是用模型的lncRNA,模型lncRNA是最接近于我们构建的高低风险的模型,所以这个图是分离最好的。然而我们这里五百多个免疫基因的这个图形,它虽然能分开,但是它的点已经有很多交叉在一起。

接下来我们又用这个免疫基因进行可视化,而它的点就相对来说重叠性更高。最后我们又将所有的基因进行可视化,我们可以看到这里面的点完全的交叉在一起。这就是我们得到主成分分析的一个图形,大家在写文章的时候,最好是把这些分开比较显著的图形放到文章里面去。

下面我们来绘制这些图形,我们需要用到的输入文件有很多,分别是所有基因样品的txt文件,免疫基因的表达量文件,免疫lncRNA的表达量,lncRNA的风险值文件,以及我们提供的脚本文件。





运行脚本文件,由于时间较长,可能需要等待一段时间,脚本运行完成后,我们就可以得到这四个图形。





购买课程:
《免疫相关lncRNA文章套路视频课程》
精品课程推荐:
《TCGA数据库甲基化分型文章套路》
《GEO数据库miRNA芯片挖掘》
《中药复方网络药理学联合GEO芯片》



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码