METABRIC数据库挖掘数据补缺以及表达数据和生存数
时间:2020-07-16 来源:生信自学网 作者:刘鑫
微信公众号:biowolf_cn 点击:次
数据补缺以及表达数据和生存数据的合并1、数据补缺 前面我们将数据下载好了,接着我们需要从数据里面把基因表达的数据和临床数据提取出来,在整理基因表达数据的时候我们发现有的基因在基因表达里面有缺失值,所以我们要对这部分基因进行补缺的操作。 在进行基因补缺时,我们要用到我之前下载好的数据里的data_mRNA_median_Zscores.txt文件,以及我们的脚本文件,用来对基因进行补缺操作,如果学员们有兴趣的话可以购买我们的课程,里面就会有整套课程的脚本文件和学习视频。可以通过文章末尾的联系方式联系我们。 配制好脚本文件的工作路径和工作文件后,复制脚本代码到R中运行。等待运行完成,就可以得到补缺后的文件。 2、表达数据和生存数据的合并 在整理好我们的数据之后,我们就要将我们基因的表达量和我们的生存数据进行合并,得到如下一个表格,该表格第一列是我们样品的名称,第二列是生存时间,第三列是生存状态,1代表病人已死亡,0代表病人还存活,接下来是所有基因的表达量。 在合并前我们要准备的输入文件是我们补缺后的基因表达文件和我们下载好的临床数据data_clinical_patient.txt文件,首先我们要对临床数据文件进行整理,将它的后缀改为xls并打开,我们先要将文件的前四行删除,还有将其中我们不需要的列删除,只保留我们需要的三列信息,然后对生存时间进行排序,把生存时间未知的数据删除,接着对生存状态也进行排序,删除为空的,并把死于疾病的状态改为1,把死于其他原因和存活的改为0,最后将修改好的数据复制粘贴到一个新的txt文件中。这样我们的输入文件就准备好了,同时还有我们自己写好的脚本。 用perl运行我们的脚本,就可以得到合并之后的文件。 (责任编辑:伏泽 微信:18520221056) |