选择基因并做生存分析

1、选择基因
接下来要从我们筛选的结果里面选择一个基因进行我们后续的分析。我们选择基因主要有三种方式，第一种的话就是我们自己有基因了，有的学员他自己已经有目标基因了，那这样的话直我们就可以直接选择自己的基因。另外一个就是根据我们之前得到的临床相关性过滤的这个表格，对这个表格的最后一列进行排序，排序完了之后就选择靠前的基因最后续的分析，越靠前的基因，就说明它跟其他的一些临床性状的相关性是最紧密的，因为我们这个基因，它通过我们之前的过滤已经确定都是跟生存相关，并且都可以作为独立的预后因子，如果我们再根据这个表格，我们就希望选择一些基因，它跟其他的临床性状是具有显著相关性的，所以我们就可以通过这个表格进行排序筛选，这就是根据临床相关性的表格进行筛选。还有第三种情况就是去查文献，就是我们得到了这个表格之后，然后结合文献的一个搜索结果进行基因的一个选择。

下面我们具体操作，我们按照最后一列进行排序，选择第一个基因作为我们分析的基因。选择了基因后，我们要将我们的基因和生存时间，生存状态以及各种临床数据进行合并，方便我们后续做各种图形。我们要准备我们的输入文件，输入文件是我们之前得到的矫正后的表达量和生存时间合并的表达文件expTime.txt，还有我们独立预后分析的临床数据文件clinicalNum.txt。最后就是我们的脚本文件。

用R运行我们的脚本文件后，我们就可以得到我们的表格了。

2、生存分析
在选择好基因后，我们就要做生存分析，生存分析的话，我们可以得到这样的生存曲线，下面我们看一下这个图形，它的横坐标是生存时间，单位是年，纵坐标就是生存率，随着时间的推移，病人的生存率是下降的。然后我们根据我们的目标基因的表达，我们可以将病人分为两组，也都是高于中位值的，我们可以把它分为高表达组，然后低于中位值的我们可以把它分为低表达组，然后我们可以看到高表达组和低表达组，他们的生存曲线是分开的。就说明高表达组和低表达组他们的生存是具有差异的，然后具体的差异显著性，我们就要看这个P值。如果P小于0.05的话，就说明通过这个基因的分组，我们的高低表达两种生存是具有差异的，我们这里的P值它是小于0.001的，就说明我们这个基因，跟病人的生存是显著相关的。然后我们再看一下图形的下半部分，它的横坐标也是一样的，也是生存时间，它的单位是年。然后纵坐标根据我们基因的表达，可以分为高低表达两组，然后这里面的数值就代表在每个时间点这两组病人中每组病人剩余病人数目，就可以得到这样一个数目的表格。