知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > TCGA >

TCGA下载基因表达数据并提取表达矩阵

时间:2017-06-05 13:59来源:原创 作者:BioWolf 点击:
这节课讲解如何从TCGA数据库下载mRNA表达数据,用gdc工具下载,得到原始文件,运行脚本提取mRNA矩阵数据。
一、数据库:TCGA
二、内容:下载Gene Expression Quantification数据,提取Gene Expression Quantification数据
三、癌症数据:宫颈鳞状细胞癌CESC
四、方法:
1、gdc.exe下载工具下载TCGA数据
2、perl脚本提取XML文件的临床信息,得到临床数据
五、步骤
1、TCGA数据库选取需要的数据类型,下载GDC Data Transfer Tool ,也就是TCGA官方提供给用户专门下载数据的工具。
2、在DOS环境下,输入下载命令,下载选取的数据

3、一般是选择counts数据

可以参见:TCGA数据下载之命令行下载 ,有相关的视频资料

六、处理原始数据
1、
Gene Expression Quantification数据和临床数据,miRNA数据不同,也相对比较复杂,Gene Expression Quantification原始数据,是309个文件夹,文件夹里面是压缩包,压缩包文件里面才是每个样本的counts文件
这里就多了几个提取步骤,首先需要把309个文件夹里面的压缩包提取放在一个文件夹内
然后解压这309个压缩包,解压之后就得到309个counts文件,这里可以手动也可以脚本处理。

2、得到309个counts文件,把脚本、manifest文件也一起放到文件夹内,运行相应的脚本文件,得到矩阵文件。

矩阵文件:

 
加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程