一、数据库:TCGA 二、内容:下载Gene Expression Quantification数据,提取Gene Expression Quantification数据 三、癌症数据:宫颈鳞状细胞癌CESC 四、方法: 1、gdc.exe下载工具下载TCGA数据 2、perl脚本提取XML文件的临床信息,得到临床数据 五、步骤 1、TCGA数据库选取需要的数据类型,下载GDC Data Transfer Tool ,也就是TCGA官方提供给用户专门下载数据的工具。 2、在DOS环境下,输入下载命令,下载选取的数据 3、一般是选择counts数据 可以参见:TCGA数据下载之命令行下载 ,有相关的视频资料 六、处理原始数据 1、Gene Expression Quantification数据和临床数据,miRNA数据不同,也相对比较复杂,Gene Expression Quantification原始数据,是309个文件夹,文件夹里面是压缩包,压缩包文件里面才是每个样本的counts文件 这里就多了几个提取步骤,首先需要把309个文件夹里面的压缩包提取放在一个文件夹内 然后解压这309个压缩包,解压之后就得到309个counts文件,这里可以手动也可以脚本处理。 2、得到309个counts文件,把脚本、manifest文件也一起放到文件夹内,运行相应的脚本文件,得到矩阵文件。 矩阵文件: 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |