生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > GEO >

多个GEO数据联合分析

一、查找和下载数据

从GEO数据库下载自己研究的癌症相关的表达谱数据。

二、数据处理

对下载的数据进行整理,得到后续差异表达分析需要的表达矩阵文件。

三、差异表达

对于每个实验的数据,使用limma进行芯片之间的标准化,差异表达分析。每个实验数据做完limma分析之后,根据logFoldChange值对基因进行排序,然后进行RobustRankAggreg分析。

得到差异基因,使用pheatmap绘制热图。

三、TCGA验证差异基因

从TCGA数据库下载癌症的level3的RNA-seq数据,合并矩阵。然后使用Wilcoxon texts非参数检验对GEO数据库得到差异基因进行验证。

四、生存分析

从TCGA数据库下载生存数据,将生存数据和差异表达数据整合,做生存分析,绘制生存曲线。

五、GO富集分析

根据基因的GO注释,选择本物种的所有基因作为背景基因,使用统计方法计算P值,从而得到基因集合再GO类别上的分布信息和显著性情况。在线工具一般使用DAVID

六、pathway分析

从复杂调控网络的角度出发,基于常见生物学通路数据库,对正常组和癌症组差异甲基化基因集合进行基于pathway数据库的生物通路富集分析,从而提取出最相关的生物通路上的基因,更加有利于下游实验开展。

七、蛋白互作网络

使用string软件对生存相关基因构建蛋白互作网络,得到蛋白的互相作用关系。


(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码