生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

GSEA输入文件的准备和富集分析

GSEA富集分析

我们这次要讲解的是GSEA富集分析。GSEA是一个计算的方法,用来确定是否一个预先定义的基因集,能在两个生物学状态中显示出显著的一致性的差异。
准备输入文件
在做GSEA富集分析之前,我们先要准备输入文件,我们做GSEA富集分析需要准备两个输入文件,一个是表达数据文件,另外一个是表型数据文件,表达数据文件就是基因在每个样品里面的一个表达量,这就是我们的表达矩阵。但是他需要以一定的格式展示,我们看一下他的具体的格式。
它的第一行是#1.2,这个固定的格式大家直接写上去就可以了。然后第二行的话就是基因的数目和样品的数目,就是我们这个表格里面出现了多少个基因和多少个样品。然后第三行的话就是样品的名称,从第四行开始就是基因在每个样品里面的表达量。当然这里还有一列描述信息,如果这个基因没有描述的话,我们就显示no。
我们再看一下表型数据文件,表型数据文件的话,我们这里是根据基因的表达量进行分组,分成高表达组和低表达组,我们要定义每个样品的类型,表型数据文件里面第三行的顺序跟我们的表达数据文件里面第三行的样品顺序是完全一致的,里面的h就代表高表达,l代表低表达。

要得到这两个输入文件我们要使用到symbol.txt文件。还有脚本文件,这个脚本文件是个pl文件,所以我们使用命令行cmd运行。


运行结束后,我们就可以得到两个文件,这两个文件就是我们前面提到的文件,这样我们的输入文件就准备好了。



富集分析
准备好输入文件后,我们就可以开始进行GSEA的富集分析。我们首先看一下GSEA富集分析的目的,就是我们想知道我们研究的目标基因。它是通过什么样的功能或者什么样的通路来影响肿瘤的发生,我们就可以做GSEA分析.
通过分析,我们首先可以得到这样的表格,在这个表格里面,它的第一列是GO或KEGG的名称。然后第二列就是富集的打分,第三列的话就对这个富集的打分进行校正,得到校正后的打分。如果打分是大于零,就说明我们的基因表达越高,这个通路或者说这个功能越活跃。如果这个打分小于零,就说明基因表达越高,这个通路或者说这个功能反而越沉默。接下来就是Pvalue,就是富集显著性的P值,对这个P值进行校正,就可以得到FDR值。我们在做分析的时候一般是按照FDR小于0.05进行过滤找到显著富集的GO和通路

下面我们具体操作,我们打开我们的GSEA软件

将我们准备好的输入文件导入到软件中

设置好我们的一些参数,这个在我们的视频里面会有详细的讲解,感兴趣的学员可以购买我们的视频学习。


之后我们点击运行,时间可能会比较长,等待运行完成,我们会得到一个结果文件夹,里面有我们的所有富集分析的结果。



课程链接:
《TCGA数据库肿瘤微环境视频》

精品课程推荐:
《TCGA肿瘤免疫细胞浸润模式挖掘》
《GEO数据库免疫细胞浸润视频》
《甲基化免疫细胞浸润模式》
《TCGA数据库肿瘤微环境》
《TCGA数据库肿瘤突变负荷》





(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码