TCGA数据库后台是如何规范TCGA样品ID的?
时间:2019-03-01 来源:生信自学网 作者:乐伟
微信公众号:biowolf_cn 点击:次
TCGA数据库现在是生信分析的热点,生信自学网开创了用生信方法解读TCGA数据的先河,给研究者提供了新的研究方案。
有很多学员仍然不是很了解,TCGA所有数据都有的样品ID是如何规范的,那么我们来看看TCGA后台是如何把庞大的数据文本化的?
接触和分析过TCGA数据的朋友肯定会经常处理TCGA barcode的前15位(有时12位),实际从上图可以看出TCGA的barcode设计总共有28位之多。
每一个短横杠衔接的都是含不同意义的序列,如下图
从TCGA数据库我们也找到了相关的说明文档:
Barcode Types
Barcodes can also be visualized hierarchically, with TSS barcodes at the top of the tree and aliquot barcodes at the bottom. A parent barcode
prefixes any of its descendent barcodes, reflecting the derivation of one biospecimen type from another. For example, samples are collected from
a participant and so the corresponding sample barcodes contain the participant barcode from which they were derived.
Using the aliquot barcode example from the figure in Reading Barcodes, the following table displays a possible set of related barcodes at each
level of the hierarchy:
可以看到同一个样本(一个病人的某一个组织块),在实际的实验处理中是分了很多分析试样的,特别是plate部分。这也就导致在实际的分析中有可能会出现多个barcode对应同一个样本(即前15位是一致的)。
通过谷歌引擎找到Biostars上有人对这个问题加以讨论,我按照着提供的链接找到了Broad研究所进行barcode去重的策略:
主要内容如下:
翻译成中文,大致有以下3点:
对于RNA分析, Analyte序列 H>R>T
对于DNA分析,Analyte序列中D>G,W,X
如果经常前面的过滤还重复样本,考虑portion和plate序列,选择更大的
另外,分析不使用福尔马林处理的样本(DNA与RNA分析数据失真,但这一点TCGA已经考虑了)
(责任编辑:伏泽 微信:18520221056) |