Comprehensive Analysis of Alternative Splicing Across Tumors from 8,705 Patients 入门学习TCGA数据库可变剪切: 《可变剪切5分文章套路课程》 获取文献原文: 关注微信公众号:biowolf_cn,回复“可变剪切”,即可下载文献原文。 本文对来自8,705名患者的32个癌症基因组图谱的选择性剪接进行了全面分析,通过重新分析RNA和全外显子组测序数据来检测可变剪接事件和肿瘤变异。与正常样本相比,肿瘤的可变剪接事件多达30%。体细胞变体与可变剪接事件的关联分析证实了SF3B1和U2AF1中变体的已知的反式关联,并鉴定了额外的反式作用变体(例如,TADA1,PPP2R1A)。许多肿瘤有数千个在正常样本中无法检测到的可变剪接事件;平均而言,我们识别了约930个外显子-外显子结合点(“neojunctions”),这些在GTEx中一般是不能被发现的。从临床蛋白质组肿瘤分析联盟中的乳腺和卵巢样本数据,本文验证了每个肿瘤样本中约1.7个新结合点和约0.6个单核苷酸变体衍生肽,这些也被用来预测主要的组织相容性复合物-1的结合剂(假定的新抗原)。 意义 免疫疗法目前是治疗癌症患者的最有希望的方向。但并非所有癌症都适合这种类型的方法。在免疫治疗获得益处的人群中,为靶向疫苗寻找合适的抗原是一个大的挑战。肿瘤特异性剪接能够发现一大类新的剪接相关的潜在新抗原,可能影响免疫反应,可用于免疫治疗。 引言 对癌症基因组的分析主要集中在体细胞非同义蛋白质突变的评估以及此类突变对基因表达,蛋白质功能和下游通路的潜在致病影响。TCGA收集的样本及数据也专门用于支持此类分析。这些已开发的资源为肿瘤转录组的变化提供了极好的机会,但所受的关注较少。不过最近对选择性剪接的分析证明可变剪接对多种癌症类型具有预后价值,包括非小细胞肺癌,卵巢癌,乳腺癌,葡萄膜黑色素瘤和胶质母细胞瘤。 结果 结果1 完整的泛癌分析工作流程 本文设计了一个全面的工作流程去整合分析32种癌症类型中8,705个供体的肿瘤的RNA和外显子组测序数据,还包括670个匹配的正常样品。所开发的方法主要可解决以下问题: (1)识别肿瘤中导致剪接变异的潜在遗传改变(右上)。 (2)全面分析肿瘤中可变剪接的定量和定性变化(右中)。 (3)确定剪接变异可用于免疫治疗的程度(右下)。 如图1所示: 这篇文献用到了TCGA联合GTEx数据库的分析,如果需要学习GTEx数据库联合TCGA数据库(解决TCGA癌旁少或没有的问题): 《GETx数据库联合TCGA挖掘》 结果2 癌症中选择性剪接事件的景观 基于最近开发的构建剪接图谱的方法,本文系统地量化了TCGA中剪接事件的变化。在所有癌症类型中,作者发现了大量高信度的剪接事件,其通过至少20个reads证实。如下图所示: 当与匹配的正常组织直接对比时,作者发现肿瘤样本中的可变剪接事件比正常样本中更多。这种差异在肺腺癌中尤其明显,作者观察到肿瘤样本中外显子跳跃事件增加超过30%。如下图所示: 然后,作者利用标准降维技术可视化整个数据中的剪接差异性。下图表明选择性剪接的组织特异性,以及癌症类型特异性差异。在结肠癌,直肠癌,鳞状细胞癌,肺鳞状细胞癌,宫颈鳞状细胞癌和头颈部鳞状细胞癌中,相似特征的癌紧密聚集在一起。 有趣的是,在乳腺癌患者中,可以根据外显子跳跃剪接特征区分不同的癌症亚型。Luminal 亚型紧密在一起,Basal亚型清晰的分开。对于肿瘤匹配的正常样本,在几乎所有情况下,它们都明显地与相应的肿瘤分开,但这些观察结果对基因表达计数不太明显,如下图所示: 结果3 体细胞反式关联推动了剪接事件的变化 然后,作者进行了关联研究,将体细胞单核苷酸变异(SNV)位置与8255个供体的可变剪接变化联系起来。作为表型,我们考虑了总共94749个外显子跳跃,30755个替代5’和48365个替代3’事件。对于泛癌关联研究,本文使用LIMIX中实施线性混合模型,校正群体,组织和批次效应。trans-sQTL基因包括具有已知剪接作用的SF3B1和U2AF1,但也有几个候选因子对剪接的影响较小。如下图所示: 另外,作者观察到TADA1与SF3B1突变的目标有相似的3'可变剪接。TADA1与SF3B5相互作用,SF3B5本身与其他剪接因子相互作用(包括SF3B1),这可能暗示出一种可能的机制。如下图所示: 结果4 肿瘤特异剪接图谱 虽然之前已经描述了肿瘤和正常样品之间的剪接的显着差异,本文的分析策略能够在大量不同的肿瘤类型和亚型上绘制出更完整的剪接景观图。前面部分中描述的观察结果表明,大部分已鉴定的事件一般非常罕见,或者在多种癌症类型中观察到,但在个体组织中仍然很少见,这使差异分析复杂化。此外,组织特异性剪接使得对癌症类型的肿瘤和正常样品之间的显着差异的评估混淆。 作者在936个基因中发现2570个离群事件,其中56个(6%)包含在COSMIC癌症基因普查列表中。一个突出的例子是肿瘤抑制因子PTEN,其显示在多种癌症类型中第三个外显子的反复跳跃,与样本大小无关。尽管之前已经描述了PTEN在癌症背景中的可选剪接,但迄今为止,外显子3的跳跃主要与遗传性疾病的易感性有关。另一个与剪接无关的例子是转移抑制基因NDRG1。虽然在每种癌症类型中只有极少数异常样本存在,但32种癌症中有14种显示出至少一个显著的离群点。如下图所示: 除了罕见的异常值,本文还对肿瘤和正常肿瘤之间的剪接形式进行差异分析。作者检查了大量的癌症基因,这些基因在肿瘤类型中反复差异剪接。如下图所示: 在最顶端的差异剪接基因中,我们发现癌症普查基因的显着富集。此外,我们还观察到先前与癌症进展相关的其他因素中的差异剪接。总之,差异剪接基因的联合排序为新假设的发展提供了丰富的资源。 结果5 癌症中增加的剪接复杂性 除了剪接形式的差异以外,我们还对肿瘤样本中外显子-外显子连接(EEJ)的识别感兴趣,我们将这种特定于肿瘤的外显子-外显子连接称为“neojunctions”。在该研究的所有样本中,我们确定了251,000个这样的新结,每个样本平均为930个。尽管样本量相似,但LUAD和UCEC通常具有比LUSC或前列腺癌更多的neojunctions。本文发现肿瘤和正常样本之间的显著区别,其中正常样本的剪接水平显著低于肿瘤样本。如下图所示: 为了回答哪些基因最常见于可能被用作诊断或治疗标记的neojunctions的问题,作者得出了一个基于neojunctions的排名。其中,作者观察到neojunctions在超过50%的特定肿瘤类型样本中显示RNA-seq支持,但在TCGA或GTEx的正常样本中几乎不存在。此外,本文发现癌症类型的复发程度很高,但也观察到组织特异性模式。如下图所示: 癌症类型之间存在很大差异,BLCA,UCEC,LUAD,BRCA和COAD中neojunctions的数量最多。 结果6 Neojunctions将导致潜在的新表位 由于TCGA样本的蛋白质组学数据有限,本文将这项研究的范围限制在63名乳腺癌和卵巢癌供体中。基于患者特异性剪接图谱,本文得到了外显子-外显子连接产生的所有多肽。这导致每个供体中平均得到539,925个外显子-外显子连接多肽。从这些多肽中,我们基于临床蛋白质组学肿瘤分析联盟(CPTAC)质谱(MS)数据确认和MHC-I结合亲和力预测的流程提取了候选ASN列表,其中包含有关人类白细胞抗原(HLA)类型的信息。如下图所示: 平均而言,我们发现0.6个SNV衍生的假定neoepitopes。总的来说,我们发现至少有一个SNV衍生的假定neoepitopes,占所有考虑样本的19/63(30%)。与其他研究相比,这些数字似乎相对较低。对于这两种癌症类型,我们发现了比SNV衍生的假定neoepitopes更多的ASN。如下图所示: 我们使用RNA-seq数据来确定neojunctions的表达,作为neojunctions衍生的9聚体表达。类似地,我们使用基于RNA-seq的表达估计的产物和相应变体等位基因频率作为SNV衍生的9聚体肽表达。为了比较,本文还提供平均外显子片段RNA表达作为整体9-mer表达。 neojunctions的表达分布与SNV衍生和整体9-mer表达分布明显不同。通常,新结合的9聚体显示出比SNV衍生的9聚体略低的表达,如下图所示: SNV通常很少见,本文没有观察到任何复发的CPTAC证实的SNV衍生的假定新抗原。然而,作者确实发现研究中15个ASN在相同癌症类型的几个样本中被观察到,并且在这两种癌症类型中复发了5个ASN。 生信自学网精品课程推荐: 《可变剪切5分文章套路基于TCGA数据库》 《单基因3-5挖掘套路基于TCGA数据库》 《肿瘤微环境基于TCGA数据库》 《肿瘤突变负荷TMB分析》 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |