一、GSE2685
1、数据下载
从NCBI GEO 公共数据库下载GSE2685的Series Matrix File数据文件,包含22个胃癌样本,8个健康样本。
2、差异表达
使用limma R包计算正常组织和胃癌组织的差异表达情况(|logFC|>1 & P<0.05),共找到628个满足条件的差异基因(保存在2685/1diff/diff.xls)。其中350个基因上调(保存在2685/1diff/diffUp.xlsx),278个基因下调(保存在2685/1diff/diffDown.xlsx)。
表1 差异基因表格前十个基因
注:
Gene 基因symbol
logFC log(差异倍数)
AveExpr 平均表达值
t 检验值
P.Value 统计P值
图1:芯片间normalize矫正前后
归一化前蓝色象限图,中位值不在一条直线上,归一化后红色象限图,中位值在一条直线上,消除芯片之间的差异。
3、聚类分析
使用pheatmap R包对差异基因进行聚类分析(Bidirectional hierarchical clustering),差异基因聚类图如(保存在2685/1diff/pheatmap.tiff)。从图2可以看出,差异基因可以很好的将正常样本和胃癌样本分开。
图2红色代表高表达,绿色代表低表达。图形上方正方形颜色代表样品,蓝色代表正常样品,红色代表胃癌样品。
4、差异基因GO分析
使用DAVID对差异基因进行GO功能富集分析,PValue< 0.05被作为筛选条件。我们共找到22个相关的GO,富集的表格如表2(2685/2GO/GO.xlsx),图形如图3(2685/3GO/GO.tiff)。
表2 差异基因GO富集结果
注:
Term 富集的GO
Count 差异基因落在Term的数目
PValue 富集统计学P值
图3 差异基因GO富集结果
横坐标是富集的GO,纵坐标是差异基因的数目和比率。不同的颜色代表不同的GO分类,即Molecular function、Biological process和Cellular component。
5、KEGG通路富集分析
使用DAVID对差异基因进行KEGG功能富集分析,图形如图4(2685/3KEGG/KEGG.tiff)。
图4 KEGG通路富集图
横坐标是基因数目,纵坐标是靶基因富集的KEGG通路,柱子的颜色代表富集显著性。
6、蛋白互作网络
使用 String在线工具对得到的差异表达基因进行蛋白质与蛋白质相互作用关系的构建,筛选网络中关键基因,得到基因关系对(保存在2685/4Net/comp.xlsx)。利用Cytoscape进行网络图构建,图形如图5(2685/5sub/network.png)。
使用Cytoscape的Mcode对共表达进行子网络(Modules)鉴定,过滤标准为degree cutoff ≥ 2, k-core ≥ 3。我们共找到三个Modules,如图6(2685/5sub/*png)。
图5 共表达网络
圆圈代表基因,连线代表基因的关系,红色代表上调基因,绿色代表下调基因
子网路1包含基因SF3B3,CSTF1,CSTF2,SNRPB2,子网路2包含基因COL1A2,COL6A3,COL4A2,COL18A1,子网络3包含基因RRS1,BYSL,WDR43。
利用基因关系对的表格,得到基因关系的网络节点数(保存在2685/4net/count.xls),利用网络节点数的多少,得到核心基因,画出核心基因柱状图(保存在2685/4net/barplot.tiff),图形如图7
图7 核心基因柱状图
横坐标基因与其它基因连线数目,纵坐标基因名称,高度代表基因连线的数量
7、蛋白互作重点基因GO功能分析
使用DAVID对蛋白互作重点差异基因进行GO功能富集分析,PValue< 0.05被作为筛选条件。我们共找到39个相关的GO(保存在2685/6subGO/GO.xlsx),图形如图8(2685/6subGO/GO.tiff)。
图8 蛋白互作重点基因GO富集结果
横坐标是富集的GO,纵坐标是差异基因的数目和比率。不同的颜色代表不同的GO分类,即Molecular function、Biological process和Cellular component。
二、GSE63121
1、数据下载
从NCBI GEO 公共数据库下载GS63121的Series Matrix File数据文件,包括15个胃癌样本,15个健康样本。
2、差异表达
使用limma R包计算正常组织和胃癌组织的差异表达情况(|logFC|>1 & P<0.05),共找到12个满足条件的差异miRNA(保存63121/1diff/diff.xls)。其中1个miRNA上调(保存在63121/1diff/Up.xlsx),11个miRNA下调(保存在63121/1diff/Down.xlsx)。
表3差异miRNA表格前十个miRNA
注:
miRNA miRNA
logFC log(差异倍数)
AveExpr 平均表达值
t 检验值
P.Value 统计P值
3、差异miRNA靶基因预测
使用miRDB、Targetscan、TargetMiner网络工具,对差异表达miRNA进行靶基因预测,得到348个靶基因,靶基因如表4(63121/2TargetGene/TargetGene.xlsx)。
表4 miRNA预测靶基因表格9个对应预测靶基因
注:
miRNA Name miRNA名字
Gene Symbol 基因
5、差异miRNA靶基因GO分析
使用DAVID对差异miRNA靶基因进行GO功能富集分析,PValue< 0.005被作为筛选条件。我们共找到37个相关的GO,富集的表格如表5(63121/3GO/GO.xlsx),图形如图9(63121/3GO/GO.tiff)。
表5差异miRNA靶基因GO富集结果
注:
Term 富集的GO
Count 差异miRNA靶基因落在Term的数目
PValue 富集统计学P值
图9 差异miRNA靶基因GO富集结果
横坐标是富集的GO,纵坐标是差异miRNA靶基因的数目和比率。不同的颜色代表不同的GO分类,即Molecular function、Biological process和Cellular component。
6、KEGG通路富集分析
使用DAVID对差异miRNA靶基因进行KEGG功能富集分析,图形如图10(63121/4KEGG/KEGG.tiff)。
图10 KEGG通路富集图
横坐标是miRNA靶基因数目,纵坐标是miRNA靶基因富集的KEGG通路,柱子的颜色代表富集显著性。
7、miRNA与靶基因调控网络
利用Cytoscape构建miRNA 与靶基因的调控网络,得到调控网络图,图形如图11(保存在63121/6miRNA_mRNA/sub.png)
图11 miRNA调控网络图
绿色圆圈代表基因,红色菱形代表miRNA
三、差异基因与miRNA靶基因联合分析
差异基因与miRNA靶基因,做韦恩图,得到交集基因MMD,CDH11,TROVE2,IRF4,IQGAP2,ATP6V1A,DCBLD2,MTF1,LAMC2,MAPK1(保存在gather/target.xls),韦恩图如图12(保存在gather/venny.tiff)
表7差异基因与miRNA靶基因交集基因
图12红色代表差异基因,蓝色代表miRNA预测的靶基因
(责任编辑:乐老师)
|