生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

实战进入TCGA数据库癌症大数据时代

TCGA数据库一下子火起来了,写个论文,做个报告,你不学点TCGA,不扯上点TCGA,貌似立马矮了一截。那么对于初学者,如何去了解这样一个数据库,如何利用有限的资源去学习利用TCGA数据库,相信很多同学都想找到这些问题的答案。
通俗一点说,TCGA数据库就是癌症数据库,所以分析癌症相关才会用到这个高大上的数据库,其他方向研究的可以飘过。紧紧说癌症数据库,未免太低估了,TCGA数据库可是美国政府发起的癌症和肿瘤基因图谱。这个数据库有一个远大的使命:提高人们对癌症发病分子基础的科学认识及提高我们诊断、治疗和预防癌症的能力。TCGA的目标也非常明确,完成一套完整的与所有癌症基因组改变相关的“图谱”。
数据库工具界面
不得不佩服国外政府对科研的支持,最关键的一点,这个数据库对全球科研工作者开放,这是一个令人鼓舞的消息,改版之前,只对注册用户开放一部分数据,2016年底的这次改版,给所有TCGA研究者带来了福音,大部分癌症数据免费开放给所有用户。
作为一个外文网站,界面虽然非常友好,但庞大的数据量,复杂的分类,也让很多初学者倍感压力。
数据库癌症分类
TCGA的数据主要包括基因的测序数据、DNA Copy Number数据、甲基化数据、转录组的数据、miRNA的数据,还有一个非常重要的就是临床数据。这些数据都可以用来做什么呢?基因的测序数据可以得到基因的突变;DNA Copy Number数据可以看出那些片段的拷贝数多了或者少了;甲基化数据可以找出差异的甲基化位点,差异的甲基化区域;转录组的数据可以知道哪些基因高表达了,哪些基因低表达了;miRNA的数据可以找出具有差异的miRNA,找出和癌症相关的miRNA。临床数据对我们的研究非常重要,因为基因的数据只是从基因的层面进行分析,有了临床数据之后,就可以把基因的数据和临床数据联合起来分析,比如我们希望知道某个基因的突变是否对临床的生存期具有影响,就可以把突变数据和临床数据结合起来进行分析;在比如希望知道某个基因的表达对病人的预后是否具有影响,也可以将转录组的数据和临床数据结合起来,看某个基因的表达对病人的预后具有影响。当然基因组的数据和分子水平的数据也可以联合分析,比如说基因的表达数据可以和miRNA表达数据联合起来,可以看出在某个癌症哪些miRNA会调控基因的表达;再比如甲基化和基因联合起来,可以看出甲基化对基因表达的影响。
TCGA癌症图谱
当前以TCGA数据库发表的文章特别,就是因为TCGA数据非常全面,而且样本量大。我们将持续给大家更新TCGA实战经验,谢谢
大家一如既往的支持。
(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码