生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

GSEA富集分析如何操作(GO/KEGG的第三个富集分析)

GSEA富集分析
除了做GO分析和KEGG分析外,最常用的,其实是GSEA分析(Gene Set Enrichment Analysis)。GSEA和普通的KEGG和GO分析不一样的地方,是GSEA构建了一个分子标签数据库(MolecularSignaturesDatabase,MSigDB),在此数据库中首先将已知基因按照染色体位置(position)、已建立的基因集(curate、模序(motif)、肿瘤相关基因集(computationalgenesets)和GO基因集(geneontologygenesets)进行分组归类。
生信自学网给大家介绍一下如何简单操作GSEA软件,得到高大上的GSEA富集图像 
GSEA是免费软件,大家没事就都能去练练手。首先去GESA的网站上去down下来这个软件,不过要注册一下才行,然后下载到Java,这个是在java基础上的软件。很快就能下载完。


接着打开,打开后是这样的界面:

首先是load数据,但这个数据是有严格要求的,需要符合这样的格式

其他比如txt文档就有别的格式要求,当然,GSEA的优点就是超人性,万一错了,会给你完整的提示。但也超没人性,万一格式错了一点点,比如表格里多了个空格,都是不能导入的。具体规则点这里:
http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats
成功导入数据后,可以进入run环节,但是也要填一堆,比如你要用什么样的标签数据库进行分析,分组是怎么分的等等,我这里用的是上周的那篇两分半文献里所用的GSE21815这个GEO系列进行分析的。

随机序列数默认是1000啦,但是千万别填这么高,这个是为了检测FDR的,为了顺利运行,开始可以选择5或者10。
刚开始可能会运行失败,但是经过调整,可以获得成功的结果,那直接点击“Success 5”就能进入结果页面了。

这个就是结果页面,数据并不理想,可以看到FDA<25%的都没有。点击“Snapshot”就能进入到大家常见的这种ES图中的,也就是富集组(Enrichment Sets)的图中。

这些图中,曲线的最高点就是ES值,当ES值为正,表示某一功能基因集富集在排序序列的前方,当ES值为负,表示某一功能基因集富集在排序序列的后方。ES值越高可以说明这些基因在通路中有富集,非散在分布,此外,这还可以说明这些基因在通路中有共同的表达趋势。

当然也可以看到这个标签下富集基因的热图。
大家就自己再试试看吧。
 
GSEA其实还是挺常用的一个技术,是将芯片数据通过GSEA的标签database来进行基因富集的,大概就是这样:

唯一烦躁的是导入数据的格式,很多人不好把握,输入的一旦是错的,那就全部结束关掉了。
大家已经学会了吗?
当然也可以学习生信自学网给大家准备的课程《GSEA富集分析基于GEO芯片》《单基因GSEA富集分析基于TCGA数据库》《单基因发文套路课程》里面也有GSEA富集分析哦,而且是直接代码准备文件,无需繁琐的操作。

(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码