GSEA富集分析如何操作(GO/KEGG的第三个富集分析)
时间:2019-07-30 来源:生信自学网 作者:乐伟
微信公众号:biowolf_cn 点击:次
GSEA富集分析
除了做GO分析和KEGG分析外,最常用的,其实是GSEA分析(Gene Set Enrichment Analysis)。GSEA和普通的KEGG和GO分析不一样的地方,是GSEA构建了一个分子标签数据库(MolecularSignaturesDatabase,MSigDB),在此数据库中首先将已知基因按照染色体位置(position)、已建立的基因集(curate、模序(motif)、肿瘤相关基因集(computationalgenesets)和GO基因集(geneontologygenesets)进行分组归类。生信自学网给大家介绍一下如何简单操作GSEA软件,得到高大上的GSEA富集图像 GSEA是免费软件,大家没事就都能去练练手。首先去GESA的网站上去down下来这个软件,不过要注册一下才行,然后下载到Java,这个是在java基础上的软件。很快就能下载完。 接着打开,打开后是这样的界面: 首先是load数据,但这个数据是有严格要求的,需要符合这样的格式 其他比如txt文档就有别的格式要求,当然,GSEA的优点就是超人性,万一错了,会给你完整的提示。但也超没人性,万一格式错了一点点,比如表格里多了个空格,都是不能导入的。具体规则点这里: http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats 成功导入数据后,可以进入run环节,但是也要填一堆,比如你要用什么样的标签数据库进行分析,分组是怎么分的等等,我这里用的是上周的那篇两分半文献里所用的GSE21815这个GEO系列进行分析的。 随机序列数默认是1000啦,但是千万别填这么高,这个是为了检测FDR的,为了顺利运行,开始可以选择5或者10。 刚开始可能会运行失败,但是经过调整,可以获得成功的结果,那直接点击“Success 5”就能进入结果页面了。 这个就是结果页面,数据并不理想,可以看到FDA<25%的都没有。点击“Snapshot”就能进入到大家常见的这种ES图中的,也就是富集组(Enrichment Sets)的图中。 这些图中,曲线的最高点就是ES值,当ES值为正,表示某一功能基因集富集在排序序列的前方,当ES值为负,表示某一功能基因集富集在排序序列的后方。ES值越高可以说明这些基因在通路中有富集,非散在分布,此外,这还可以说明这些基因在通路中有共同的表达趋势。 当然也可以看到这个标签下富集基因的热图。 大家就自己再试试看吧。 GSEA其实还是挺常用的一个技术,是将芯片数据通过GSEA的标签database来进行基因富集的,大概就是这样: 唯一烦躁的是导入数据的格式,很多人不好把握,输入的一旦是错的,那就全部结束关掉了。 大家已经学会了吗? 当然也可以学习生信自学网给大家准备的课程《GSEA富集分析基于GEO芯片》、《单基因GSEA富集分析基于TCGA数据库》、《单基因发文套路课程》里面也有GSEA富集分析哦,而且是直接代码准备文件,无需繁琐的操作。 (责任编辑:伏泽 微信:18520221056) |