生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

METABRIC数据库挖掘GSEA富集分析

GSEA富集分析

1、GSEA输入文件的准备
我们挑选好了单基因之后,我们要知道这个基因它是通过什么样的功能,或者什么样的通路来影响肿瘤的发生,这就是GSEA富集分析的目的,在进行富集分析之前,我们先要准备GSEA的输入文件。
我们需要准备两个文件,第一个文件就是表达数据及文件,就是我们所有基因在所有样品里面的一个表达量,我们需要以一定的格式进行展示,比如说它的第一行就是#1.2,第二行就显示这个基因的数目和样品的数,第三行就是样品的名称,从第四行开始,就是我们基因在所有样品里面的一个表达量。然后我们还需要一个文件就是表型的数据文件,它的第一行就是告诉我们总共有多少样品,然后这些样品分为几个组。第二行告诉我们它分成的两个组是哪两个组,一个是H组,一个是L组。H组是这个基因的高表达组,L组是这个基因的低表达组。我们要准备的就是这两个文件。


要准备这两个文件,我们需要有我们之前准备好的基因补缺后的文件作为输入文件,还要有我们的运行脚本。

我们打开cmd,用perl运行我们的脚本文件,等待运行完成,我们就可以得到两个文件,这两个文件就是我们GSEA富集分析的输入文件。


2、GSEA富集分析
准备好GSEA的输入文件后,我们就可以进行GSEA富集分析,我们可以得到这样一个表格,第一列就是我们通路的名称,如果我们这里做的是通路的富集分析,那么我们第一列就是通路的名称,如果我们做的是GO的富集分析,那我们这里就是GO的名称。接下来就是富集的打分,我们对富集的打分进行校正,可以得到校正后的打分。接下来就是富集的显著性,这个P值越小的话富集越显著。除了得到富集的表格之外,我们还可以得到这样的一个图形,首先我们看一下左边这个图形,它的峰值出现在h组,也就是我们基因的高表达组,也就是说,我们这个基因表达越高,通路越活跃。右边那个图的话正好相反,它的峰值是出现在低表达组,也就是说我们这个基因表达越高,我们这个通路反而越沉默。

接下来是具体操作,我们首先要下载我们GSEA软件,我们打开浏览器,搜索GSEA,进入主页,点击DownLoad按钮,输入邮箱登录后进入下载界面,找到对应版本下载就好了。



我们用GSEA打开之前准备好的两个文件,点击run,配制好输入文件,点击运行,就可以得到我们需要的结果。




(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码