知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > 免费视频 >

TCGA临床数据下载提取临床数据

时间:2017-08-16 10:09来源:原创 作者:BioWolf 点击:
临床数据的统计是分析TCGA数据库的门槛,也正是因为TCGA数据库为大家提供临床数据,才让TCGA变得顶级重要,从此收到全球癌症研究人员的青睐。
每当想到TCGA数据库,闭上眼睛,我想到的是在美国的服务器得有多么大,保存和处理如此庞大的数据,一个样本的甲基化数据就有100多M,一个癌症的甲基化数据就有60个G,当然对于数据,我们只关心自己需要的,不是自己研究相关的,再大再多又何干。如果是做胃癌的,那么肺癌的数据对于我来说,多一个都是占用内存。既然这么说,那么TCGA数据库的基础数据,每篇论文都要先统计的数据,就是研究TCGA数据库的门槛,不跨过去,后续还谈什么分析。
既然说得那么重要,那就必须下载并整理好,得到我们有用的数据,TCGA数据库后台工作人员的思路非常清晰,做事相当有条理,就命名这一项就可以看出,对如此庞大的数据,整理的井井有条,实属不易,说到临床数据,TCGA采用的是比较流行的储存格式,XML文件,大眼一看,好陌生的样子,有学习或接触过网站设计的朋友就很熟悉,这个就是网站地图文件,百度抓取时会检索这些文件,你用txt或浏览器打开会发现,是一群代码,有用的信息也就藏在这些代码里面,如果是一个样本,一个XML文件,我相信,很多学员会一句一句去读,大不了花一天时间提取出来,但是问题来了,一个癌症可是有300-500个样本,手工得要花300-500天,那可是一年的时间,喔的天,这有点夸张了。


如果手机不支持在线播放,那么可以选择电脑浏览器播放,或者关注微信公众号,里面有视频资料-免费视频教程,也可以学习免费视频。
加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程