生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

TCGA下载基因表达数据并提取表达矩阵

一、数据库:TCGA
二、内容:下载Gene Expression Quantification数据,提取Gene Expression Quantification数据
三、癌症数据:宫颈鳞状细胞癌CESC
四、方法:
1、gdc.exe下载工具下载TCGA数据
2、perl脚本提取XML文件的临床信息,得到临床数据
五、步骤
1、TCGA数据库选取需要的数据类型,下载GDC Data Transfer Tool ,也就是TCGA官方提供给用户专门下载数据的工具。
2、在DOS环境下,输入下载命令,下载选取的数据

3、一般是选择counts数据

可以参见:TCGA数据下载之命令行下载 ,有相关的视频资料

六、处理原始数据
1、
Gene Expression Quantification数据和临床数据,miRNA数据不同,也相对比较复杂,Gene Expression Quantification原始数据,是309个文件夹,文件夹里面是压缩包,压缩包文件里面才是每个样本的counts文件
这里就多了几个提取步骤,首先需要把309个文件夹里面的压缩包提取放在一个文件夹内
然后解压这309个压缩包,解压之后就得到309个counts文件,这里可以手动也可以脚本处理。

2、得到309个counts文件,把脚本、manifest文件也一起放到文件夹内,运行相应的脚本文件,得到矩阵文件。

矩阵文件:

 
(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码