lncRNA的GSEA富集分析
时间:2020-11-11 来源:生信自学网 作者:刘鑫
微信公众号:biowolf_cn 点击:次
lncRNA的GSEA富集分析准备输入文件通过GSEA富集分析,我们可以知道高低风险组在哪些基因集里面具有富集,在做富集分析之前,我们需要准备好GSEA富集分析需要的输入文件。它需要两个输入文件,一个是表达数据集文件,另外一个是表型数据文件 我们先看一下表达数据集文件,从中我们可以得知,基因的数目是五万多个,样本的数目是三百多个。接下来列名表示样品的名称,行名是样品名称。然后这里第二列是描述,如果这个基因没有描述的话,我们这里就显示no,然后就是基因在样品里面的表达量。这就是我们准备好一个表达数据文件。 接下来我们还要一个文件,就是表型数据文件,这个文件第一行的话显示的是334个样品,这334个样品,我们把它这分为两组,分别是低风险组和高风险组,低风险组用l表示,高风险组用h表示,它的顺序是和上面样品的顺序是一一对应的。 这两个输入文件如果手动去准备就非常复杂,可能就要花一定的时间。我们这里的话就直接用脚本文件,大家直接运行脚本就可以得到这两个文件。 在运行脚本之前,我们要准备好两个文件,分别是样品的表达矩阵和lncRNA的风险值文件。 运行脚本后,我们就得到了表达数据文件和表型数据文件。 富集分析 得到这两个文件后,我们就可以做GSEA富集分析了,经过富集分析,我们会得到这样的图形 我们首先看一下它的横坐标,也就是最下面一部分,代表是我们的基因。我们的基因从左到右,左边的基因代表这个基因在高风险的样品里面高表达,右边的基因的话就代表这些基因在我们的低风险的样品里面高表达,所以这里是一个排序,这个排序就是在高风险里面它的表达量的一个降序,越往左边就说明这些基因在高风险的病人里面,它的表达越高,然后越往右边就说明在 低风险里面的表达越高。 这些黑色的竖线代表这些基因存在于我们这个基因集里面。我们可以看一下这个打分是怎么走的,打分的话就是从左往右,当我们碰到一个基因,如果它存在于我们的基因集里面,打分就增加,说明左边这一片基因都存在于基因集里面,所以它的打分就非常高。越往后,基因的数量越来越少,所以它的打分就开始下降。 我们富集的打分是根据这个图形峰值的打分进行定义的,我们根据这个峰值的打分可以去做统计学的检验,得到一个P值,如果P小于0.05,就说明我们这个高低风险在这个基因集里面是具有富集的。然后富集的话我们会出现两种情况,一种峰值在上方,一种是峰值在下方,如果峰值在上方的话,就说明这个基因在高风险的病人里面表现比较活跃。比如说我们所看到的这两个图形,就属于在高风险的病人里比较活跃。 下面我们来绘制这样的图形,输入文件我们已经准备好了,除了两个输入文件,我们还要准备好GSEA软件和两个gmt文件,这个在之前文章中已经准备好了。 打开GSEA,导入我们准备好的四个文件,运行GSEA,等待运行完成,我们会得到两个文件夹,里面就包含着所有样品的结果文件。 购买课程: 《免疫相关lncRNA文章套路视频课程》 精品课程推荐: 《TCGA数据库甲基化分型文章套路》 《GEO数据库miRNA芯片挖掘》 《中药复方网络药理学联合GEO芯片》 (责任编辑:伏泽 微信:18520221056) |
- 上一篇:主成分分析
- 下一篇:没有了