知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > 生信答疑 >

TCGA数据库使用常见问题答疑

时间:2017-10-26 15:29来源:原创 作者:森莘 点击:
在TCGA数据库使用,分析的时候,经常会遇到一些问题,把学员经常遇到的问题规整一下,以便后续分析提高效率,少走弯路,当然很多问题会不断被发现解决,所以这个短文会持续更新
TCGA数据库
1、问:
TCGA数据库能做什么,是否需要收费?
答:TCGA数据库是美国国立癌症数据库,所以是专门用来分析癌症的数据库,不是做癌症的学员可以绕过,找找其他如GEO芯片数据库;TCGA数据库是政府开放提供给全球科研人员的,下载开放数据是完全免费的,这对于学员来说是个福利,因为TCGA数据库包含了很多数据,有转录数据,甲基化数据,核苷酸序列,cope number等,另外一个非常关键的有临床信息,这么说基本你可以把平时所学的生信分析方法都用到这个数据库了。
2、问:TCGA数据是直接下载吗?下载下来是什么格式?
答:TCGA数据库不同数据保存的格式是不同的,基本上的思路是一个样本保存在一个文件中,单个文件比较大的,还会压缩成一个压缩包,当然学员最关系的就是,是否可以打包下载,让大家失望了,改版后的TCGA否定了大家的想法,官方提供了一个专业的下载工具,gdc.exe。很多学员在网上搜索到了一些其他方法和其他工具,建议使用官方工具下载,保证数据的完整性和可靠性。
3、问:为什么我的gdc.exe下载老是报错?
答:常见的癌症都有500左右的样本,每个样本就是一个文件夹,gdc工具是根据menifast文件里面的样本代号在数据库后台下载,是一个一个文件下载,这个就考验大家的网速,有时候卡一下,一个样本没下载,gdc工具就会跳过下载下一个,如果连续报错,那就换个时间重新下载。一般情况下,如果网速好,不是用网高峰,下载是不会出错的,在TCGA数据库选择癌症的时候,cart就会显示样本的数量,下载好需要检查下下载文件的数据,如果还有个位数的文件没有下载,直接输入命令把单个样本下载下来就可以了:gdc....exe download 一串字符的样本代号。这个代号在下载的时候报错会显示,复制就好了。如果超过10个以上的报错,那直接重新下载吧,重新数据下载命令,这里不需要把之前下载的删除,工具会自动识别覆盖。
4、问:文献里面经常用到的TCGA数据库lncRNA数据在哪里?怎么找不到?
答:如果是单独分析基因的,就不需要考虑这个问题,这也是我们基础课程给大家讲的内容;如果大家的分析设计到了lncRNA,那么需要学习ceRNA网络构建的课程,由详细讲解如何提取lncRNA。其实lncRNA的数据是包含在基因数据里面的,我们可以搜索一下基因,就会知道基因包含很多分类,我们从TCGA数据库提取的基因矩阵,主要包括mRNA和lncRNA以及其他一些基因,有了这个认识,就好办了,因为很多学员根本不知道lncRNA数据在哪里。下载的原始数据用的是Ensembl id,我们是经过转换才得到了基因,其实在Ensembl官网就可以查询Ensembl id,查看这个基因就是是什么分类,当然一个一个查询是不实现的,因为我们有5W多个基因,所以需要用基本把这个分类注释上去,然后直接分类就可以分离lncRNA。
5、问:TCGA临床数据需要在哪里找?
答:这个问题非常多学员问到,现在常见的分析都有生存分析,生存分析与实际应用联系紧密,生存分析就必须用到临床信息。如果只需要简单的临床信息,cart里面的metadata文件就可以找到,Metadata文件包含了生存时间和生存状态等临床信息。如果需要详细的临床信息,需要下载XML文件,一个样本临床保存一个XML文件内,下载之后提取就可以得到xls格式文件,方便的使用临床信息。
今天先回答这些问题,可以关注微信公众号或者加客服QQ获得更多解答。



加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程