GEO芯片分析思路探讨
时间:2017-08-15 07:26来源:原创 作者:BioWolf 点击:
次
利用R软件及affy、limma、pheatmap、ggplot2等R软件包进行数据挖掘及生物信息学分析。DAVID在线工具做GO功能分析,在GeneMANIA数据库做进一步研究。
表达谱芯片分析非常常见,是非常简单易学的分析方法,如果是放在两年前,GEO芯片分析,那时非常热门,随着论文不断被发表,可以研究的课题越来越少,深度广大加大,这种热度也慢慢退却,但是这种研究方法是生物研究入门最佳研究思路。
以癌症芯片为例
首先要从NCBI GEO数据库下载癌症芯片表达谱数据,对数据进行处理,接着做差异表达基因的筛选,利用R软件及affy、limma、pheatmap、ggplot2等R软件包,进行数据挖掘及生物信息学分析。对基因芯片表达谱数据进行过滤和标准化,获取癌症及癌旁组织的差异表达基因。选择统计学检验后差异最为显著的基因作为研究对象(筛选条件可以设定为:logFC>2,P<0.05)。
差异表达基因的功能富集分析,可以先应用DAVID数据库对筛选的显著差异基因进行分析。DAVID数据库集合多种基因注释数据库信息,可对基因数据集进行分析和注释。研究时主要应用DAVID数据库的基因本体(geneontology,GO)模块对差异表达基因进行系统分析。然后做KEGG富集通路分析,比较常见的是使用KOBAS3.0在线工具,做KEGG富集分析,得到KEGG富集通路图,以及富集柱状图。
最后可以做差异表达基因的调控网络分析,差异表达基因经DAVID数据库注释后,我们可以选择与功能(如细胞膜结构)相关的差异基因。这个是基于细胞膜与肿瘤细胞的转移与侵袭力高度相关的理论基础,这里我们可以应用GeneMANIA数据库对DAVID注释与细胞膜结构相关的基因进行网络结构分析,获取基因之间的共定位、共表达、共蛋白结构域等方面的关系,研究这些基因的分子调控网络之间的关系。
网络构建的时候,也可以使用String在线工具做蛋白互作网络,然后用Cytoscape软件对蛋白互作网络可视化,得到网络图,用于报告分析。
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
|
BioWolf二维码生成器
------分隔线----------------------------