生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

WGCNA的入门和进阶:(一)初识加权基因共表达网

WGCNA的入门和进阶:(一)初识加权基因共表达网络分析(WGCNA)

       WGCNA在RNA-seq基因表达数据的分析中占有不可或缺的位置。在项目实战中不少使用该方法来分析基因表达谱,下面我们跟大家分享一些个人心得。首先我们先了解一下WGCNA是什么吧!

 基本概念
       加权基因共表达网络分析(WGCNA, Weighted correlation network analysis)是一种系统生物学方法,用来描述基因间的相关模式,早年使用microarray基因表达数据,近些年越来越多的使用RNA-seq的基因表达数据。WGCNA可用于寻找高度相关的基因集(module),使用module特征(ME,module eigengene)或module内枢纽(hub)基因代表该module(ME较常见),计算 
(1) 不同module的相关性,
(2) module与样本性状的相关性,
(3) 基因隶属模块的权重。
WGCNA促进了基于网络的基因筛选方法,可用于识别候选生物标志物或治疗靶点。这些方法已成功应用于各种生物学研究,如癌症、小鼠遗传学、酵母遗传学和脑成像数据分析。

 WGCNA相关术语
        在WGCNA中有很多的术语,对于刚接触WGCNA的学员来说,看到这些术语就是一脸懵逼,其实WGCNA的核心就是一个加权的相关性,那么各个术语绕不开的就是某个变量和另一个变量的相关性,我们根据个人实战和理解整理WGCNA用到的所有术语,供大家学习参考。
Co-expression network:无向加权基因网络。以基因表达谱举例,基因之间的连接由基因间的表达相关性决定,WGCNA则使用β(软阈值)加权提高相关性的绝对值,加强高相关的基因并减弱低相关的基因。具体来说,aij = |cor(xi, xj)|β表示unsigned的共表达网络, aij = |(1 + cor(xi, xj))/ 2|β 表示signed的共表达网络。
Module:表达高度相关的基因集。在unsigned的共表达网络中,module对应具有高度绝对相关性的基因集。在signed的网络中,module对应正相关的基因基因集。
Module Eigengene ME:给定模块的第一主成分。它被认为可以代表给定基因module的基因表达谱。
Module Membership MM:将该基因的表达量与module eigengene进行相关性分析就可以得到MM值,MM值本质上是一个相关系数,如果基因和某个module的MM值为0,说明二者根本不相关,该基因不属于这个module; 如果MM的绝对值接近1,说明基因与该module相关性很高。
Intramodular connectivity KIM 衡量的是给定基因相对于特定模块的基因是如何连接或共同表达的。模内连接性可以衡量module membership。
Gene significance GS:将指定基因的表达量与对应的表型数值进行相关性分析,最终的相关系数的值就是GS,GS反映出基因表达量与表型数据的相关性,GS越高表明指定基因与研究表型越相关。
Module significance:给定module中所有基因的GS平均值。反应了指定module与表型数据的相关性,Module significance越高表明指定module与研究表型越相关。
Eigengene significance:模块特征(ME)与样本性状的相关性。跟Module significance表明的一样,也是指定module与表型数据的相关性,值越高表明指定module与研究表型越相关。
Connectivity:在加权共表达网络中,由于每条边代表两个基因间的相关性的大小,对应一个数值,所以一个基因在共表达网络中的Connectivity定义为与该基因相连的所有边的数值之和。另外,根据相连的基因是否和该基因位于同一个module, 又可以将边分为两类,和该基因位于同一个module内,定义为within,位于不同的modules, 定义为out。可根据within的connectivity来确定该module的hub基因。
Hub gene:这个定义是“highly connected gene”的缩写。表示在共同表达模块内的具有高Connectivity的基因。 

WGCNA的应用
       本次总体概述WGCNA在生物信息研究中的应用,后续会有专题搭配文献进行深度阐述。1、鉴定高相关的基因module。往往一组表达高度相关的基因具有相似的生物学功能。可通过此方法初步探索lncRNA的功能。2、鉴定性状高度相关的基因module。与性状高度相关的基因module可进行后续分析,探索其与性状的生物学功能。3、寻找hub基因。该类应用在早期的lncRNA研究中很热,如果某个module中有lncRNA作为hub基因,可以继续对该lncRNA进行深度探索。 

个人心得分享

        在RNA-seq的基因表达量的分析中,WGCNA和差异基因分析的共同点是寻找感兴趣的基因集进行后续深度解析,这两种方法我们在项目中多有使用,以下几点心得跟大家分享交流。1、WGCNA可利用全部基因信息识别感兴趣的基因集,并与样本表型进行关联,免去差异基因分析多重假设检验矫正的问题。2、随着RNA-seq技术的发展,同时获得编码基因和非编码基因成为可能,那么同时对数十万的基因同时进行WGCNA分析对计算机的要求也是比较高的,一般来说计算机能处理的最大模块的基因数量(默认5000),4G内存电脑可处理8000-10000个,16G内存电脑可以处理2万个,32G内存电脑可以处理3万个,本人试过在本地跑同时对几十万个基因做WGCNA分析,电脑很容易奔溃;如果有集群资源,可以在集群上跑任务。另外一种解决方法是挑选差异表达的基因表达谱进行WGCNA分析。3、如果样本性状(分组)比较多,WGCNA可以很直观的比较某一组基因在不同分组的表达情况。4、对于样本分组为连续变量,WGCNA很直观的表现特定基因module随连续变量的变化情况。



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码