COX模型验证如何分train组和test组 1、首先我们看下,COX模型构建里面,需要用到的两个数据,一个是基因表达矩阵,一个是每个样品的临床数据包括生存时间和生存状态。当然我们常用的有TCGA数据库,分析癌症首选,表达数据和生存数据都比较完整,而且容易获取;当然大家可以自己准备,其他数据库的数据或者自己的实验数据。 想要学习如何做COX模型验证分组,可以学习生信自学网为大家精心录制的专利课程: 《COX模型验证》 2、有了两个数据文件,接下来需要通过样本ID把临床和表达整合在一个矩阵里面,组合好的矩阵行名是样品,列名有生存时间、生存状态和基因的名称。 3、接下来就是最关键的分组,把样品分train组和test组 常规分组比例:train组和test组各占50%,这也是COX分析常见的分组比例,当然如果是其他分析,可能用其他比例,大家可以参考相关文献。 分组命令:inTrain<-createDataPartition(y=rt[,3],p=0.5,list=F) 这里的y值:是一个关键值,这里选择的3,也就是第三列“生存状态”,在第三列生存状态有存活病人和死亡的病人,在分组的时候,保证train组和test组的存活病人和死亡病人数目相差不大。 P=0.5:train组和test各占50% 这样的话,我们就把所有的样本分成两组。 4、在有些情况下,我们做随机分组之后,做单因素、lasso回归分析、多因素cox分析、ROC曲线,并没有得到理想的结果,那么有些学员就建议我们开发循环分组。 那么通过循环,同时得到后面高低风险组生存曲线P值和ROC曲线AUC值满足条件的一个分组。 if((pValue<0.01) & (roc$AUC>0.65) & (pValueTest<0.03) & (rocTest$AUC>0.62)) 这里分别是值train组和test组高低风险生存差异P值,两组的AUC值 当然参数不能设定太严格,否则可能即使循环也得不到理想的分组。 生信自学网推荐精品课程: 《单基因挖掘套路基于TCGA数据库》 《TCGA肿瘤突变负荷》 《GTEx数据库联合TCGA数据库挖掘》 《中药复方网络药理学》 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |