高通量测序数据发文思路
时间:2017-08-15 来源:原创 作者:森莘
微信公众号:biowolf_cn 点击:次
随着高通量检测(基因芯片/二代测序)价格的降低,全基因组检测也成为较为常规的实验之一。然而面对动辄几万个基因的高通量数据,后期的数据分析显得尤为重要。 一、基础分析 1、聚类分析 说到聚类分析,想必大家不会陌生,几乎所有做过芯片和测序的文章中,都要放几张聚类分析的图。聚类分析有各种各样类型,主要是由Cluster TreeView,和R语言 pheatmap包生成的。 为了全面直观的展示样品之间的关系及差异情况,将差异表达基因做无监督层次聚类分析(Hierarchical Clustering),以热图(heatmap)形式显示。用挑选的差异基因的表达情况来计算样品之间的相关性,同一类样品能通过聚类出现在同一个簇中,且聚在同一个簇的基因可能具有类似的生物学功能。 2、散点图(Scatter Plot) 芯片或测序数据经过标准化处理后,在一个二维直角坐标系平面中,绘制散点图。芯片数据的散点图常用于评估两组数据总体分布集中情况。散点图中每一个点代表芯片上的探针点,该点在二维平面中的位置根据其在不同组中的表达量,由X轴和Y轴坐标确定 3、火山图(Volcano plot) 芯片或测序数据经T-Test分析得到P-value值与FC值,两个因素共同绘制火山图(Volcano Plot),用于显示两组样数据的显著性差异。横轴代表探针的差异显著程度(-log10 P-value),纵轴代表探针的差异倍数(Fold chang) 4、主成份分析 PCA PCA 分析,即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用于各个场合。坐标轴取能够最大反映方差值的三个特征值。 二、Pathway富集分析 如果做完高通量检测后只能做1种分析,那么Pathway分析是最好的选择。 目前,KEGG是有关Pathway的主要数据库。通过计算差异基因和Pathway 的超几何分布关系,每个有差异的Pathway 返回一个p-value,较小的p 值表示较高的富集程度。简单来说,P值越小,这个Pathway越重要。 Pathway分析看似基础,却有一些需要注意的地方 第一:数据库版本 KOBAS3.0 第二:结果展示形式 最简单的展示形式就是直接放个Excel表格,按照Pathway的P值做一下排序 稍微高级一点点的方法是用Pathway的-lgP来展示Pathway显著性 找到某几个P值较小或自己比较感兴趣的信号通路 用cytoscape做全局信号转导网络 三、ceRNA网络 如果左手有一组MicroRNA数据 右手有一组mRNA/lncRNA数据 如何利用多组数据 找到核心MicroRNA和重要靶基因 如何分析最近正热门的CeRNA关系 1、靶基因预测 用倍数法或P值筛选到差异MicroRNA后,第一步要做的就是靶基因预测,靶基因预测数据库很多,常见的有这些: Targetscan miRDB 2、相关性分析 靶基因预测结果通常很多,一个MicroRNA对应上千个mRNA的情况很常见,如何减少假阳性率,是靶基因预测的关键,推荐两种方法: 1. 多个数据库取交集,通常用2~3个数据库的共同结果,优点是可以有效减少靶基因数量,缺点是不同数据库算法不同,有时可能取不到靶基因。 2. 用单一数据库预测结果和mRNA高通量检测结果取交集,找到既受MicroRNA调控又有相应表达变化的靶基因(负相关)。 3、MicroRNA-Gene调控网络构建 如何在几十个MicroRNA和几千个靶基因中挑选出最重要的调控因子,供下游研究,是MicroRNA分析的难点。 这就需要咱们来构建一个MicroRNA-靶基因调控网络。 首先确定网络中的元素:MicroRNA当然就是用差异MicroRNA,但是靶基因太多,为了避免网络太复杂,变成这样 我们关键问题是如何提剔除冗余mRNA 推荐在构建网络之前先对靶基因进行GO和Pathway富集,选择有显著性(P<0.05)的GO和Pathway中的基因构建网络。 这样可以有效减少靶基因数量。 构建一个正常的调控网络 然后,利用网络中的特征值 特征值最高的MicroRNA处于网络的枢纽性地位 该MicroRNA调控能力最强 同时找到被MicroRNA调控的关键靶基因 4、CeRNA分析 CeRNA(competing endogenous RNAs)假说揭示了一种RNA间相互作用的新机制。 已知MicroRNA可以通过结合mRNA导致基因沉默,而ceRNA可以通过竞争性地结合MicroRNA来调节基因表达。ceRNA可以通过应答元件(microRNA response elements,MREs)与microRNA结合从而影响microRNA导致的基因沉默,这揭示了一条RNA→microRNA调节通路的存在,具有重大生物意义。 目前,环状RNA(circRNA)研究很热,但事实上circRNA只占ceRNA的一小部分: 以lncRNA为例(也可以是mRNA/circRNA等)展示一下如何筛选CeRNA关系,构建CeRNA调控网络: 寻找mRNA和lncRNA共同结合的MicroRNA: 找到与同一个MicorRNA作用的一对mRNA和lncRNA,LncRNA在这里起到竞争性结合作用,充当MicroRNA海绵。 剔除冗余CeRNA关系:因为虽然很多mRNA和lncRNA都和同一个MicroRNA有配对关系,但他们在体内没有竞争关系,这种lncRNA并不作为有效的CeRNA,需要在分析中剔除。 方法为通过Co-expression 算法,筛选有正相关关系的mRNA-lncRNA组合。 这样,就找到了准确的CeRNA关系。再把这些关系放进网络中,就可以构建出CeRNA作用网络: 推荐一篇CeRNA的经典文献(关注微信公众号、加QQ可获得论文) “A Long Noncoding RNA Activated by TGF-β Promotes the Invasion-Metastasis Cascade in Hepatocellular Carcinoma” (责任编辑:伏泽 微信:18520221056) |
- 上一篇:TCGA差异基因做火山图
- 下一篇:R语言学习资料大全(持续更新)