如何分组做COX模型验证-生信自学网

如何分组做COX模型验证

时间:2019-07-29 来源:生信自学网作者:乐伟
微信公众号:biowolf_cn 点击:次

COX模型验证如何分train组和test组
1、首先我们看下，COX模型构建里面，需要用到的两个数据，一个是基因表达矩阵，一个是每个样品的临床数据包括生存时间和生存状态。当然我们常用的有TCGA数据库，分析癌症首选，表达数据和生存数据都比较完整，而且容易获取；当然大家可以自己准备，其他数据库的数据或者自己的实验数据。
想要学习如何做COX模型验证分组，可以学习生信自学网为大家精心录制的专利课程：
《COX模型验证》

2、有了两个数据文件，接下来需要通过样本ID把临床和表达整合在一个矩阵里面，组合好的矩阵行名是样品，列名有生存时间、生存状态和基因的名称。

3、接下来就是最关键的分组，把样品分train组和test组
常规分组比例：train组和test组各占50%，这也是COX分析常见的分组比例，当然如果是其他分析，可能用其他比例，大家可以参考相关文献。
分组命令：inTrain<-createDataPartition(y=rt[,3],p=0.5,list=F)
这里的y值：是一个关键值，这里选择的3，也就是第三列“生存状态”，在第三列生存状态有存活病人和死亡的病人，在分组的时候，保证train组和test组的存活病人和死亡病人数目相差不大。
P=0.5：train组和test各占50%
这样的话，我们就把所有的样本分成两组。

4、在有些情况下，我们做随机分组之后，做单因素、lasso回归分析、多因素cox分析、ROC曲线，并没有得到理想的结果，那么有些学员就建议我们开发循环分组。
那么通过循环，同时得到后面高低风险组生存曲线P值和ROC曲线AUC值满足条件的一个分组。

if((pValue<0.01) & (roc$AUC>0.65) & (pValueTest<0.03) & (rocTest$AUC>0.62))
这里分别是值train组和test组高低风险生存差异P值，两组的AUC值

当然参数不能设定太严格，否则可能即使循环也得不到理想的分组。

生信自学网推荐精品课程：
《单基因挖掘套路基于TCGA数据库》
《TCGA肿瘤突变负荷》
《GTEx数据库联合TCGA数据库挖掘》
《中药复方网络药理学》

(责任编辑：伏泽微信：18520221056)

森莘老师微信二维码

上一篇：十万样本深度挖掘TMB和PD-1
下一篇：TCGA数据库可变剪切数据挖掘简介

如何分组做COX模型验证

时间:2019-07-29 来源:生信自学网 作者:乐伟 微信公众号:biowolf_cn 点击:次

时间:2019-07-29 来源:生信自学网作者:乐伟
微信公众号:biowolf_cn 点击:次