一、查找和下载数据
从GEO数据库下载自己研究的癌症相关的表达谱数据。
二、数据处理
对下载的数据进行整理,得到后续差异表达分析需要的表达矩阵文件。
三、差异表达
对于每个实验的数据,使用limma进行芯片之间的标准化,差异表达分析。每个实验数据做完limma分析之后,根据logFoldChange值对基因进行排序,然后进行RobustRankAggreg分析。
得到差异基因,使用pheatmap绘制热图。
三、TCGA验证差异基因
从TCGA数据库下载癌症的level3的RNA-seq数据,合并矩阵。然后使用Wilcoxon texts非参数检验对GEO数据库得到差异基因进行验证。
四、生存分析
从TCGA数据库下载生存数据,将生存数据和差异表达数据整合,做生存分析,绘制生存曲线。
五、GO富集分析
根据基因的GO注释,选择本物种的所有基因作为背景基因,使用统计方法计算P值,从而得到基因集合再GO类别上的分布信息和显著性情况。在线工具一般使用DAVID
六、pathway分析
从复杂调控网络的角度出发,基于常见生物学通路数据库,对正常组和癌症组差异甲基化基因集合进行基于pathway数据库的生物通路富集分析,从而提取出最相关的生物通路上的基因,更加有利于下游实验开展。
七、蛋白互作网络
使用string软件对生存相关基因构建蛋白互作网络,得到蛋白的互相作用关系。
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
|