METABRIC数据库挖掘挑选基因以及绘制生存曲线
时间:2020-07-17 来源:生信自学网 作者:刘鑫
微信公众号:biowolf_cn 点击:次
挑选基因以及绘制生存曲线1、挑选基因挑选基因,然后为生存分析和后续的独立业务分析准备输入文件,也就是得到如下的一个表格。那挑选基因的话,我们怎么去挑选呢?我们前面三个过滤都是显著的,现在我们做了临床相关性的过滤,如果我们没有比较关注的临床性状,比如说每个临床性状,它对于我们来说都是平等的,那我们就可以挑选最后一列数值比较大的做后续的分析。然后就可以得到这样一个表格,因为我们在准备输入文件的时候,我们要准备的是生存分析,还有独立预后分析,以及我们的ROC曲线,所以我们准备表格,我们就会把这些信息保留下来,这些信息,第一列是样品的名称,第二列是生存时间。第三列是生存状态,第四列是我们挑选的基因的表达,最后这几列就是我们的临床性状,我们就得到这样一个表格 准备这个表格需要的输入文件是经过ROC过滤以后和ROC显著显著相关的基因的表达文件,也就是rocSigExp.txt文件。还有就是clinicalNum.txt文件以及我们的脚本文件。 设置好脚本的工作路径后,在R中运行脚本,运行完成后,我们就可以得到单基因的生存数据singleGeneSurData.txt文件。 2、绘制生存曲线 我们已经挑选好了基因,并将我们基因的表达量跟生存时间,生存状态以及各种临床数据进行合并。接下来我们就可以做生存分析,我们可以得到如下的生存曲线,它的横坐标就是生存时间,单位是年,纵坐标是生存率。随着时间的推移,病人的生存率是下降的。我们通过基因表达的中位值可以把这个病人分为两组,一个是高表达组,用红色表示,一个是低表达组,用蓝色表示。我们也可以看到这两组之间是否具有差异,我们就可以通过这个P值。如果P小于0.05的话,就说明高低表达组的生存是具有差异的。我们这里的P是小于0.001,就说明我们高低表达组生存差异非常显著。接下来我们可以看到,高表达组五年生存率大概是60%左右,低表达组的五年生存率是75%以上,所以它的五年生存率也是有一定的差异。接下来我们看到图形的下半部分,它的横坐标也是生存时间,单位是年,纵坐标分为两类,一个是高表达组,另外一类是低表达组,这里的数值就代表在每个时间点高表达组和低表达组剩余病人的数目。 要得到这样一个图,我们需要准备的输入文件有,我们得到的单基因的生存数据文件,还有我们的脚本文件。同样,用R运行脚本文件,我们就可以得到生存曲线图形。 (责任编辑:伏泽 微信:18520221056) |