生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > GEO >

GEODataSets和GEOProfiles的区别

NCBI 的 GEO DataSets 和 GEO Profiles 相比有什么区别?
GEO DataSets: GEO数据库(收录整个试验的数据)
GEO Profiles数据库 (它负责收录一个基因在一次试验中的定量基因表达数据)
这么说吧,要理解Datasets和Profile有何区别,先得整明白GEO原始数据是如何提交的。
GEO有三种供提交者提交数据的平台,分别是Platform、Samples、Series。
Platform用来提交对序列及基于序列的平台的描述。Samples用来提交样本的处理条件、丰度测量方式。一条Series将一组相关Samples连接在一起,并提供了整个研究的描述,包括对数据的描述,总结分析。

回到题目,提交的原始数据怎么为各国学者方便地使用呢?
GEO管理人员通过算法对原始数据经过整理和标准化后,就产生了可被可视化的Datasets和Profiles。换言之,这是种高级数据。
Datasets是由GEO工作人员将Series数据整理所得,可以被可视化和分析,代表了生物学和统计学上可以被比较的样本的集合。而Profiles来源于Datasets,由在Datasets中所有样品的单个基因的表达测量结果组成。
Affy与Illumina、Agilent平台的差异。Affy平台在Probe level有大量的杂交、阴性质控探针,常见的3'IVT、WT与HTA有至少1W+以上的高GC阴性探针(接近背景或过饱和的Ctrl探针是无价值的)与杂交质控Probe,对于批次校正,这部分数据比持家基因更有价值。Affy平台可以尝试在Raw Scale上进行校正。
GEO上数据,Agilent平台是不提供,Feature Extraction之后的质控原件的,非常可惜。在多数据集批次校正里,芯片的质控更关键。Affy由于所有分析需要的信息都已在CEL中整合,且QC现成代码很多,so 简单不少。当然重写Agilent和illumina质控不是难,只是麻烦。可以参考arrayQualityMetrics中的一些QC检出方法。相对一般的QC,可以把重心放在你需要在校正中使用的持家基因 or QC探针上。理论上这块可以比较容易的以Backward stepwise elimination方法做到自动化。
精品课程推荐:
《GEO基础课程》
《GEO数据库单基因挖掘文章套路》
《GEO数据库单细胞测序》



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码