生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

如何分组做COX模型验证

COX模型验证如何分train组和test组
1、首先我们看下,COX模型构建里面,需要用到的两个数据,一个是基因表达矩阵,一个是每个样品的临床数据包括生存时间和生存状态。当然我们常用的有TCGA数据库,分析癌症首选,表达数据和生存数据都比较完整,而且容易获取;当然大家可以自己准备,其他数据库的数据或者自己的实验数据。
想要学习如何做COX模型验证分组,可以学习生信自学网为大家精心录制的专利课程:
《COX模型验证》


2、有了两个数据文件,接下来需要通过样本ID把临床和表达整合在一个矩阵里面,组合好的矩阵行名是样品,列名有生存时间、生存状态和基因的名称。

3、接下来就是最关键的分组,把样品分train组和test组
常规分组比例:train组和test组各占50%,这也是COX分析常见的分组比例,当然如果是其他分析,可能用其他比例,大家可以参考相关文献。
分组命令:inTrain<-createDataPartition(y=rt[,3],p=0.5,list=F)
这里的y值:是一个关键值,这里选择的3,也就是第三列“生存状态”,在第三列生存状态有存活病人和死亡的病人,在分组的时候,保证train组和test组的存活病人和死亡病人数目相差不大。
P=0.5:train组和test各占50%
这样的话,我们就把所有的样本分成两组。

4、在有些情况下,我们做随机分组之后,做单因素、lasso回归分析、多因素cox分析、ROC曲线,并没有得到理想的结果,那么有些学员就建议我们开发循环分组。
那么通过循环,同时得到后面高低风险组生存曲线P值和ROC曲线AUC值满足条件的一个分组。

if((pValue<0.01) & (roc$AUC>0.65) & (pValueTest<0.03) & (rocTest$AUC>0.62))
这里分别是值train组和test组高低风险生存差异P值,两组的AUC值

当然参数不能设定太严格,否则可能即使循环也得不到理想的分组。

生信自学网推荐精品课程:
《单基因挖掘套路基于TCGA数据库》
《TCGA肿瘤突变负荷》
《GTEx数据库联合TCGA数据库挖掘》
《中药复方网络药理学》



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码