知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > 生信数据库 >

lncRNA的GSEA富集分析

时间:2020-11-11 19:02来源:生信自学网 作者:刘鑫 点击:
通过GSEA富集分析,我们可以知道高低风险组在哪些基因集里面具有富集,

lncRNA的GSEA富集分析

准备输入文件
通过GSEA富集分析,我们可以知道高低风险组在哪些基因集里面具有富集,在做富集分析之前,我们需要准备好GSEA富集分析需要的输入文件。它需要两个输入文件,一个是表达数据集文件,另外一个是表型数据文件
 
我们先看一下表达数据集文件,从中我们可以得知,基因的数目是五万多个,样本的数目是三百多个。接下来列名表示样品的名称,行名是样品名称。然后这里第二列是描述,如果这个基因没有描述的话,我们这里就显示no,然后就是基因在样品里面的表达量。这就是我们准备好一个表达数据文件。
 
接下来我们还要一个文件,就是表型数据文件,这个文件第一行的话显示的是334个样品,这334个样品,我们把它这分为两组,分别是低风险组和高风险组,低风险组用l表示,高风险组用h表示,它的顺序是和上面样品的顺序是一一对应的。
 
这两个输入文件如果手动去准备就非常复杂,可能就要花一定的时间。我们这里的话就直接用脚本文件,大家直接运行脚本就可以得到这两个文件。
 
在运行脚本之前,我们要准备好两个文件,分别是样品的表达矩阵和lncRNA的风险值文件。
 


运行脚本后,我们就得到了表达数据文件和表型数据文件。
 


富集分析
得到这两个文件后,我们就可以做GSEA富集分析了,经过富集分析,我们会得到这样的图形
 
我们首先看一下它的横坐标,也就是最下面一部分,代表是我们的基因。我们的基因从左到右,左边的基因代表这个基因在高风险的样品里面高表达,右边的基因的话就代表这些基因在我们的低风险的样品里面高表达,所以这里是一个排序,这个排序就是在高风险里面它的表达量的一个降序,越往左边就说明这些基因在高风险的病人里面,它的表达越高,然后越往右边就说明在 低风险里面的表达越高。

这些黑色的竖线代表这些基因存在于我们这个基因集里面。我们可以看一下这个打分是怎么走的,打分的话就是从左往右,当我们碰到一个基因,如果它存在于我们的基因集里面,打分就增加,说明左边这一片基因都存在于基因集里面,所以它的打分就非常高。越往后,基因的数量越来越少,所以它的打分就开始下降。
 
我们富集的打分是根据这个图形峰值的打分进行定义的,我们根据这个峰值的打分可以去做统计学的检验,得到一个P值,如果P小于0.05,就说明我们这个高低风险在这个基因集里面是具有富集的。然后富集的话我们会出现两种情况,一种峰值在上方,一种是峰值在下方,如果峰值在上方的话,就说明这个基因在高风险的病人里面表现比较活跃。比如说我们所看到的这两个图形,就属于在高风险的病人里比较活跃。
 
下面我们来绘制这样的图形,输入文件我们已经准备好了,除了两个输入文件,我们还要准备好GSEA软件和两个gmt文件,这个在之前文章中已经准备好了。
 
打开GSEA,导入我们准备好的四个文件,运行GSEA,等待运行完成,我们会得到两个文件夹,里面就包含着所有样品的结果文件。





购买课程:
《免疫相关lncRNA文章套路视频课程》
精品课程推荐:
《TCGA数据库甲基化分型文章套路》
《GEO数据库miRNA芯片挖掘》
《中药复方网络药理学联合GEO芯片》




加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程