如何分组做COX模型验证-生信自学网

COX模型验证如何分train组和test组
1、首先我们看下，COX模型构建里面，需要用到的两个数据，一个是基因表达矩阵，一个是每个样品的临床数据包括生存时间和生存状态。当然我们常用的有TCGA数据库，分析癌症首选，表达数据和生存数据都比较完整，而且容易获取；当然大家可以自己准备，其他数据库的数据或者自己的实验数据。
想要学习如何做COX模型验证分组，可以学习生信自学网为大家精心录制的专利课程：
《COX模型验证》

2、有了两个数据文件，接下来需要通过样本ID把临床和表达整合在一个矩阵里面，组合好的矩阵行名是样品，列名有生存时间、生存状态和基因的名称。

3、接下来就是最关键的分组，把样品分train组和test组
常规分组比例：train组和test组各占50%，这也是COX分析常见的分组比例，当然如果是其他分析，可能用其他比例，大家可以参考相关文献。
分组命令：inTrain<-createDataPartition(y=rt[,3],p=0.5,list=F)
这里的y值：是一个关键值，这里选择的3，也就是第三列“生存状态”，在第三列生存状态有存活病人和死亡的病人，在分组的时候，保证train组和test组的存活病人和死亡病人数目相差不大。
P=0.5：train组和test各占50%
这样的话，我们就把所有的样本分成两组。