生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

提取生存时间并与表达量合并

提取生存时间并与表达量合并

做完差异表达以后,我们就要开始做生存分析,在做生存分析前,我们需要先知道每个病人的生存时间和生存状态,所以我们首先要获得病人的生存时间和生存状态。
我们要用到从TCGA上下载的clinical.cart.2019-07-07.json文件。里面有病人的id,病人的生存时间和生存状态等信息,我们就需要将这些信息从文件中提取出来。



脚本文件的话我们已经事先准备好了,通过命令行运行pl脚本,我们会得到这样一个文件,里面就包含了病人的id、生存时间和生存状态,其中生存状态0表示病人还存活,1表示病人已经死亡。
提取出生存时间之后,我们要将长非编码的RNA和病人的生存时间合并在一起,这样我们才能做后续的生存分析以及单因素和多因素的cox分析。
我们先要将长非编码RNA的表达量文件和提取生存时间后的文件放在一个文件夹中,连同我们合并用的脚本文件,该文件由我们生信自学网编写,感兴趣的学员可以通过下方链接购买我们的课程。


通过perl运行脚本后,我们会得到一个文件,第一列是基因的id,第二列是生存时间,第三列是生存状态,后面是样品的表达量。这样我们做后续分析的文件就准备好了。

课程链接:
TCGA数据库批量挖掘lncRNA视频

相关课程:
长非编码RNA芯片数据挖掘视频


(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码