生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

高通量测序数据发文思路

随着高通量检测(基因芯片/二代测序)价格的降低,全基因组检测也成为较为常规的实验之一。然而面对动辄几万个基因的高通量数据,后期的数据分析显得尤为重要。
一、基础分析
1、聚类分析

说到聚类分析,想必大家不会陌生,几乎所有做过芯片和测序的文章中,都要放几张聚类分析的图。聚类分析有各种各样类型,主要是由Cluster TreeView,和R语言 pheatmap包生成的。
热图

为了全面直观的展示样品之间的关系及差异情况,将差异表达基因做无监督层次聚类分析(Hierarchical Clustering),以热图(heatmap)形式显示。用挑选的差异基因的表达情况来计算样品之间的相关性,同一类样品能通过聚类出现在同一个簇中,且聚在同一个簇的基因可能具有类似的生物学功能。
热图

2、散点图(Scatter Plot)
芯片或测序数据经过标准化处理后,在一个二维直角坐标系平面中,绘制散点图。芯片数据的散点图常用于评估两组数据总体分布集中情况。散点图中每一个点代表芯片上的探针点,该点在二维平面中的位置根据其在不同组中的表达量,由X轴和Y轴坐标确定
散点图

3、火山图(Volcano plot)
芯片或测序数据经T-Test分析得到P-value值与FC值,两个因素共同绘制火山图(Volcano Plot),用于显示两组样数据的显著性差异。横轴代表探针的差异显著程度(-log10 P-value),纵轴代表探针的差异倍数(Fold chang)
火山图

4、主成份分析 PCA
PCA 分析,即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用于各个场合。坐标轴取能够最大反映方差值的三个特征值。
PCA主成分分析

二、Pathway富集分析
如果做完高通量检测后只能做1种分析,那么Pathway分析是最好的选择。
目前,KEGG是有关Pathway的主要数据库。通过计算差异基因和Pathway 的超几何分布关系,每个有差异的Pathway 返回一个p-value,较小的p 值表示较高的富集程度。简单来说,P值越小,这个Pathway越重要。
Pathway分析看似基础,却有一些需要注意的地方
 
第一:数据库版本
KOBAS3.0
第二:结果展示形式
最简单的展示形式就是直接放个Excel表格,按照Pathway的P值做一下排序
KEGG富集分析
稍微高级一点点的方法是用Pathway的-lgP来展示Pathway显著性
KEGG富集图

找到某几个P值较小或自己比较感兴趣的信号通路
KEGG通路


用cytoscape做全局信号转导网络

全局信号转导网络


三、ceRNA网络
如果左手有一组MicroRNA数据
右手有一组mRNA/lncRNA数据
如何利用多组数据
找到核心MicroRNA和重要靶基因
如何分析最近正热门的CeRNA关系
1、靶基因预测
用倍数法或P值筛选到差异MicroRNA后,第一步要做的就是靶基因预测,靶基因预测数据库很多,常见的有这些:
Targetscan
Targetscan


miRDB
miRDB

2、相关性分析
靶基因预测结果通常很多,一个MicroRNA对应上千个mRNA的情况很常见,如何减少假阳性率,是靶基因预测的关键,推荐两种方法:
1.    多个数据库取交集,通常用2~3个数据库的共同结果,优点是可以有效减少靶基因数量,缺点是不同数据库算法不同,有时可能取不到靶基因。
2.     用单一数据库预测结果和mRNA高通量检测结果取交集,找到既受MicroRNA调控又有相应表达变化的靶基因(负相关)。
 
3、MicroRNA-Gene调控网络构建
如何在几十个MicroRNA和几千个靶基因中挑选出最重要的调控因子,供下游研究,是MicroRNA分析的难点。
这就需要咱们来构建一个MicroRNA-靶基因调控网络。
首先确定网络中的元素:MicroRNA当然就是用差异MicroRNA,但是靶基因太多,为了避免网络太复杂,变成这样
网络图

我们关键问题是如何提剔除冗余mRNA
推荐在构建网络之前先对靶基因进行GO和Pathway富集,选择有显著性(P<0.05)的GO和Pathway中的基因构建网络。
这样可以有效减少靶基因数量。
构建一个正常的调控网络
cytoscape构建网络

然后,利用网络中的特征值
特征值最高的MicroRNA处于网络的枢纽性地位
该MicroRNA调控能力最强
同时找到被MicroRNA调控的关键靶基因
4、CeRNA分析
CeRNA(competing endogenous RNAs)假说揭示了一种RNA间相互作用的新机制。
已知MicroRNA可以通过结合mRNA导致基因沉默,而ceRNA可以通过竞争性地结合MicroRNA来调节基因表达。ceRNA可以通过应答元件(microRNA response elements,MREs)与microRNA结合从而影响microRNA导致的基因沉默,这揭示了一条RNA→microRNA调节通路的存在,具有重大生物意义。
目前,环状RNA(circRNA)研究很热,但事实上circRNA只占ceRNA的一小部分:
ceRNA


以lncRNA为例(也可以是mRNA/circRNA等)展示一下如何筛选CeRNA关系,构建CeRNA调控网络:

调控网络


寻找mRNA和lncRNA共同结合的MicroRNA:

lncRNA

找到与同一个MicorRNA作用的一对mRNA和lncRNA,LncRNA在这里起到竞争性结合作用,充当MicroRNA海绵。
剔除冗余CeRNA关系:因为虽然很多mRNA和lncRNA都和同一个MicroRNA有配对关系,但他们在体内没有竞争关系,这种lncRNA并不作为有效的CeRNA,需要在分析中剔除。
方法为通过Co-expression 算法,筛选有正相关关系的mRNA-lncRNA组合。
这样,就找到了准确的CeRNA关系。再把这些关系放进网络中,就可以构建出CeRNA作用网络:
ceRNA调控网络

推荐一篇CeRNA的经典文献(关注微信公众号、加QQ可获得论文)
“A Long Noncoding RNA Activated by TGF-β Promotes the Invasion-Metastasis Cascade in Hepatocellular Carcinoma”
参考文献


(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码