TCGA数据库生存分析绘制5年生存曲线
时间:2017-10-31 来源:原创 作者:森莘
微信公众号:biowolf_cn 点击:次
TCGA数据库分析,如果做了基础分析,可以得到几个数据表格;分别是基因表达量,做了差异分析之后得到的差异基因,提取了临床数据的可以得到临床数据,当然临床数据有简单的,也有复杂一些的,最简单的是从metadata文件提取,可以得到生存时间和生存状态,以及样本代号3列;如果是学习了如何用XML文件提取临床数据,那么可以得到常用的16列临床数据,包括生存时间,生存状态,TNM分期,分级等临床信息。TCGA数据库是以表达量见长的,对于治疗方式和术后等临床信息,一般都不全,所以希望分析更多癌症临床的学员,可以考虑使用SEER数据库,SEER数据库是癌症临床数据库,包括非常全的临床数据,是临床医学的重点研究数据库。 那么有了表达量文件,有了差异基因,又有了临床信息,把这些信息结合在一起,就可以分析单个基因的生存曲线了。那么如何才能把某个差异基因的表达量和临床数据结合起来的,这里需要我们用到样本代号作为切入点,临床数据也有样本代号,表达量文件也有样本代号。 当然这个步骤可以使用excel操作,也可以学习编程,编程是一劳永逸的事情,但是切不可窃取别人的劳动成果,购买了生信自学网的视频,得到了课件和代码,自己学习是可以的,这个不是分享的时候,我们生信自学网的课程和代码都是有版权的,希望大家尊重知识原创。 接下来,就可以绘制生存曲线了,生存曲线常用的软件,有R和SPSS,R功能强大,可以做数据处理和绘图多个分析,SPSS上手容易,但始终无法处理序列和文本文件,所以有时间建议学习下R。当然如果是学习生信自学网的课程,是无需编程基础的,直接学习,把代码放在R里面跑就可以了,准备好输入文件就OK了。
生存曲线(survival curve):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。
生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。
TCGA数据库生存曲线,用到的R包是survival包
1. 生存时间(survival time)
生存时间:从研究起始到终点事件之间所经历的时间跨度,度量单位可以是小时、日、月、年等。研究起始、终点事件、时间单位应在研究设计阶段明确。
2. 删失(censoring)
生存结局(status)分为“死亡”与删失两类,“死亡”是感兴趣的终点事件,其他终点事件或生存结局都归类为删失(censoring)(也称截尾或终检)。举例来说,如果要研究两种治疗组直肠癌患者预后的差异,研究的终点事件是因直肠癌死亡;那么,因车祸的死亡,心梗发生的死亡,存活,失访的患者的生存结局都是:删失。在生存分析的图中,删失数据都统一用“+”显示。
(责任编辑:伏泽 微信:18520221056) |