GEO表达谱芯片多个联合分析-生信自学网

一、查找和下载数据

从GEO搜索关键字“(gastric cancer)AND "Homo sapiens"[porgn:__txid9606]”，得到胃癌相关的表达谱数据。对这些数据进行过滤，过滤掉没有重复试验的样品。接下来，阅读文献，找出研究正常人和癌症病人，或者癌组织与正常组织的比较的数据。下载这些数据的表达矩阵或CEL文件，用于后续的分析。

表1用于分析的数据

GEO芯片信息

注：

Series 序列号

GEO GEO id

Platforms 芯片平台号

Normal 正常样品数目

Tumor 癌症样品数目

Reference 参考文献
二、数据处理

对于芯片表达值数据，直接从GEO下载数据，对于没有取log的值，进行取log处理。对于CEL文件，使用affy包读取CEL文件的表达量数据。在同一芯片内，如果一个基因有多个探针，取所有探针的平均值作为基因的表达值。

差异表达

对于每个实验的数据，我们使用limma进行芯片之间的标准化，差异表达分析(每个实验的limma分析结果保存在01_limma里面)。

每个实验数据做完limma分析之后，根据logFoldChange值对基因进行排序，然后进行Rank分析(adjust Pvalue<0.05，矫正方法为bonferroni矫正法)。Rank方法的零假设是每个基因在每个实验中随机排序，如果某个基因在所有实验中，都排在前面，那么它的p值越小，是差异基因可能性越大。

通过Rank分析，我们共找到960个差异基因，其中458个上调基因，502个下调基因。

使用pheatmap绘制最上调和最下调的20个基因做热图，得到差异基因的热图。从图中可以看出，上调的基因基本在所有实验中logFC>0，而下调的基因基本在所有的实验中logFC<0。

表2 差异基因列表

差异基因表格截图

注：

Name gene symbol

logFC 每个实验差异logFC均值

Pvalue 统计学p值

adjPvalue 校正后的p值

GEO联合分析热图

图1 logFC热图

横坐标是geo id，纵坐标是基因名，红色代表logFC>0，绿色代表logFC<0，方框里面的数值代表logFC值。

三、TCGA验证差异基因

从TCGA下载胃癌level3的RNA-seq数据，共xx个正常组织，xx个肿瘤组织。下载的数据是每个样品单个的FPKM文件，我们使用perl语言将所有的样品合并成一个矩阵，便于后续的分析。接下来，我们使用Wilcoxon tests非参数检验对GEO数据库得到差异基因进行验证。

通过TCGA验证，我们共找到749个差异基因，其中320个上调基因，429个下调基因。

表3 TCGA验证差异基因

TCGA差异分析表格截图

注：

Name gene symbol

logFC 每个实验差异logFC均值

Pvalue 统计学p值

adjPvalue 校正后的p值

四、生存分析

从TCGA下载生存数据，并将生存数据和差异基因表达数据整合在一起，做接下来的生存分析。使用survival R包进行生存分析并绘制生存曲线，统计检验为log rank检验，过滤条件为Pvalue<0.01。通过分析，共找到168个与胃癌生存相关的差异基因，结果保存在04_TCGAsurvival/survival.xlsx里面。168个生存相关基因的生存曲线保存在04_TCGAsurvival/picture目录下。

癌症图谱生存曲线

图2 生存分析

图中，横坐标是生存时间，纵坐标是总生存率，红色表达基因高表达组，蓝色代表低表达组。

五、GO富集分析

使用DAVID对目标靶基因进行GO功能富集分析，FDR<0.05被作为筛选条件，我们共找到5个相关的GO，（即“extracellular space”、“digestion”等），使用ggplot2 R包绘制GO富集柱状图。5个相关GO表格和GO富集柱状图保存在diffSig\GO\GO.xls目录下。

图5 GO富集结果

GO功能富集

注：

Term 富集的GO

Count 差异基因落在Term的数目

PValue 富集统计学p值

FDR 统计FDR值(false discovery rate)

KEGG富集通路

图3 GO富集柱状图

横坐标是富集在GO的基因数目，纵坐标是富集的GO。颜色代表富集的统计学显著性，越蓝表示富集程度越高。

六、KEGG富集分析

使用KOBAS对差异基因进行KEGG通路富集分析，CorrectedP-Value<0.05被作为筛选条件。我们共找到23个相关的KEGG，富集的表格保存在diffSig\KEGG\KEGG.xlsx目录下，最富集通路hsa04971图保存在diffSig\KEGG\hsa04971.png目录下。如果需要查看其它富集通路的通路图，可以打开差异diffSig\KEGG\KEGG.xlsx，点击相应通路的Hyperlink链接即可。

表6 KEGG富集结果

KEGG富集结果截图

注：

Term 富集的KEGG

ID KEGG ID

P-Value 富集统计学p值

CorrectedP-Value 矫正后的p值

KEGG通路

图4 hsa04971通路图

绿色代表通路中的基因，红色代表我们输入的生存相关基因。

七、蛋白互作网络

使用String软件对生存相关基因构建蛋白互作网络，得到蛋白的相互作用关系。图1是蛋白互作网络图，图中圆圈代表蛋白，连线蛋白蛋白之间存在互作关系。使用R软件绘制互作网络邻接节点数目图，图2是每个蛋白的邻接节点数目，邻接节点数目越多，说明该基因位于蛋白互作网络的核心，对整个网络起的作用最关键。由图2可以看出，CFTR、SST、TIMP1等位于网络的最核心。蛋白互作网络图和互作网络邻接节点数目图、互作网络邻接节点数表格保存在diffSig\蛋白互作网络目录下。

蛋白互作网络

图5 蛋白相互作用网络图

圆圈代表基因，线条代表基因间存在蛋白相互作用，圆圈内部的结果代表蛋白的结构。线头颜色代表证明蛋白之间存在相互作用的不同证据。(small nodes:protein of unknown 3Dstructure; large nodes: some 3D structure is known or predicted; A red lineindicates the presence of fusion evidence ; a green line - neighborhoodevidence; a blue line - coocurrence evidence; a purple line - experimentalevidence; a yellow line – text mining evidence; a light blue line -database evidence; a black line - coexpression evidence.)

核心基因柱状图