生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

转录组数据与临床数据的下载及整理(下)

转录组数据与临床数据的下载及整理(下)

3、临床数据的下载与整理

      接下来我们要对临床数据进行下载,同样的,我们要进入TCGA gdc官网,清空Cart,点击Repository进入数据下载界面。选择好疾病类型、项目等.
        接着在文件类型里面选择临床数据,选择xml格式,最后添加到Cart中进行下载,这里我们只需要下载Cart一个文件即可。下载好后,我们的临床数据文件就准备好了。







        这就是下载好的压缩包,解压后就是每个样品的文件。



下载好了临床数据以后,我们是每个样品一个文件,而且它的文件格式还是xml文件。这样的文件可读性很差,我们就需要对这样的数据进行了整理。
       通过整理,我们可以得到如下一个矩阵


       这个矩阵它的行名是样品的名称,列名是各种临床数据,下面我们看一下这些临床数据。这里第一列就是样品的名称,然后接下来就是生存时间,它的单位是天,所以我们要把它转化为年,然后接下来就是生存状态,0就代表这个病人还活着,然后1就代表这个病人已经死亡,这就是生存状态,再接下来就是这个病人的年龄,性别,分级,分期。这就是我们提取的临床信息,当然每个肿瘤的临床信息都不同,所以这里的话我们只能把这些常见的临床信息提取出来,这些临床信息也是文章里面用的最多的一些临床信息。

        接下来我们来提取这下临床信息,我们要准备是输入文件是我们下载好的临床数据压缩包,我们先解压我们下载好的数据,解压后里面的文件内容都很大,所以我们需要用我们事先准备好的脚本文件从里面提取出我们需要的信息。




我们先要将脚本文件拷贝到解压后的文件夹中,然后用perl运行我们的脚本文件,等待运行完成,我们就得到了整理之后的临床信息文件,就可以做后续的分析了。


购买课程:
《免疫相关lncRNA文章套路视频课程》

精品课程推荐:
《TCGA数据库甲基化分型文章套路》
《GEO数据库miRNA芯片挖掘》
《中药复方网络药理学联合GEO芯片》


(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码