知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > GEO >

CEO数据库单基因分析表达数据与生存数据合并以

时间:2020-07-25 15:33来源:生信自学网 作者:刘鑫 点击:
我们已经对表达数据进行校正了,校正了之后我们就可以将它与生存数据合并起来,可以得到表达和生存数据合并后的文件,接下来就可以进行生存分析过滤。

表达数据与生存数据合并以及生存过滤分析

1、表达数据和生存数据合并
在这之前,我们已经对表达数据进行校正了,校正了之后我们就可以将它与生存数据合并起来,合并之后我们就可以得到这样一个表格,这个表格第一列就是我们的样品的名称,第二列就是生存时间,它的单位是年,这里大家一定要注意,我们下载的数据,无论它的单位是多少,我们都需要对它进行整理,把它的单位整理成年。接下来就是生存状态,0是代表这个病人还活着,1是代表这个病人已经死亡了。接下来就是所有基因的表达量,当然这里的表达量是校正后的表达量。

接下来我们对表达数据与生存数据进行合并,我们需要准备的输入文件有我们之前矫正后的表达量文件normalize.txt,还有保存生存时间和生存状态的文件clinical.xlsx,打开该文件,删除其他数据,只保留生存时间和生存状态,并对剩下的数据进行处理,得到我们合并需要的文件。最后是我们的脚本文件,由生信自学网提供。


打开cmd用perl运行我们的脚本,运行完成后,我们就可以得到表达和生存数据合并后的文件。

2、生存过滤分析
接下来要进行的是生存分析过滤,我们使用两种方法,一种是KM的方法,另外一种cox方法。我们先比较一下两种方法的不同,我们先看一下KM方法,就是按照我们这个基因表达的中位值将我们的样品分成两组,然后比较两组之间是否具有差异。如果这里的P值小于0.05的话,就说明通过我们这个基因的表达量将我们的样品分为两组,这两组生存是具有差异的。我们再看一下cox方法,就是把我们这个基因当做一个连续的变量,然后跟我们生存时间和生存状态进行比较,然后看我们这个基因的表达跟我们的生存时间和生存状态是否相关,如果相关的话,那这里的P值就会小于0.05,所以我们这里是通过两种方法来看我们这个基因是否跟生存相关。
下面我们看一下每一列的内容,第一列就是我们基因的名称,然后第二列就是KM方法的P值,第三列是HR值,如果大于1的话就说明我们这个基因是高风险的基因,也就是这个基因的表达越高,病人的风险也越高。最后这一列就是cox的P值。

接下来准备输入文件,就是我们刚得到的表达和生存数据合并后的文件,还有我们的脚本文件。用R运行我们的脚本,等待运行完成,我们可以得到一个生存过滤后的结果文件survival.result.xls文件,还一个生存分析显著相关的基因的表达量surSigExp.txt。






加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程