癌症类型和样本代号详解TCGA
时间:2017-06-06 来源:原创 作者:BioWolf
微信公众号:biowolf_cn 点击:次
这是实战TCGA数据库的又一个知识点,如果你已经对TCGA有浅显的认识,那么我们应该根据研究方向找到自己的癌症类型,TCGA有一台完整的癌症分型,慢慢这个分型也成为了主流,你别不服气,如果我们有这样的科研实力和共享魄力,一样可以得到科研界的认可,可是路漫漫,幸好我们都在路上,至少现在的统计显示,国内发表关于TCGA的文章数据已经过半数了。 最重要的癌症类型有32个,会带领大家一个一个来认识,以后分析学习的时候可以直接查看,如果是全英文的,那你会说,这个我也知道,放心,当然会给大家简单中文检索的。他们分别是: ACC 腺样囊性癌 BLCA 膀胱癌 BRCA 乳腺癌 CESC 宫颈鳞状细胞癌 CHOL 胆癌 COAD 结肠癌 DLBC 淋巴癌 ESCA 食管癌 GBMLGG 脑癌 HNSC 头颈部鳞癌 KICH 嫌色细胞癌 KIRC 肾透明细胞癌 KIRP 乳头状肾细胞癌 LAML 骨髓癌 LIHC 肝癌 LUAD 肺腺癌 LUSC 肺鳞状细胞癌 MESO 胸膜癌 OV 卵巢癌 PAAD 胰腺癌 PCPG 肾上腺癌 PRAD 前列腺癌 READ 直肠癌 SARC 软组织癌 SKCM 皮肤癌 STAD 胃癌 TGCT 睾丸癌 THCA 甲状腺癌 THYM 胸腺癌 UCEC 子宫内膜癌 UCS 子宫癌 UVM 眼癌 这样展示给大家,会不会很唐突,大家保存就是了,整理是需要时间和经理的,具体每个癌症的详情,还需要大家一起去完善。不知道有找到自己需要研究的癌症类型呢?找到了癌症的类型,带大家来认识一下癌症大数据里最常见,最有标志性的,样本代号,这个估计也要变成国际标准了,相信科研组在考虑如何命名是也是下足了功夫,因为TCGA数据量大,涉及的样本多,每个样本的表达数据类型有多,太简单的话无法检索需求啊,太难更不行了,会被嫌弃的! 举个样本例子给大家: TCGA-02-0001-01C-01D-0182-01 就这么一个简单的代号,包含着多少信息,又包含着多少科研工作的热情和心血。 TCGA命名每个字段的意义 Project-TSS-Participant-Sample&Vial-Portion&Analyte-Plate-Center TCGA:Project 项目名称 02:TSS 组织来源代码 0001:Participant 科研参与者 01:Sample 样本号 C:Vial 样本序列中样本的阶数 01:Portion 顺序中部分的次序 D:Analyte 0182:Plate 顺序中的板的顺序 01:Center 测序鉴定 看了这么多,是不是有点糊涂了,其实这个代码中,最重要的就是第四个字段,也就是01C,准确的说01对我们来说非常重要,这个sample的数字是从01-29的,其中01-09是tumor,也就是癌症样本;其中10-29是normal,也就是癌旁;这个对于每个研究者才是最重要的,当然,这个必须记住,只有记住这个,后期才能做差异分析,生存分析,如果连肿瘤样本和癌旁样本都区分不了,何谈后续分析呢? 业内有人戏说:“一入TCGA深似海”,这可见癌症谱图有多大,我们有多渺小,对于科研数据,我们应该怀着一颗敬畏和空杯的心态,一步一步,不如TCGA大数据的殿堂,去挖掘对癌症分析、治疗有用的数据库,也不枉TCGA曾经定下的目标和宏伟梦想。 (责任编辑:伏泽 微信:18520221056) |
- 上一篇:实战进入TCGA数据库癌症大数据时代
- 下一篇:TCGA数据库数据类型速查