生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

TCGA数据库可变剪切文献解读

可变剪切分析火了,那么如果结合生信方法,做自己的研究方向的可变剪切呢?生信自学网为你答疑解惑。
可变剪切是基因转录时,通过组合不同的外显子,形成不同转录本的过程,在生命的信息传递过程中发挥着重要的作用;今天就给大家分享一篇利用TCGA数据库癌症转录组数据可变剪切事件进行生存分析,构建预后模型分析的文章,目前可变剪切在癌症的研究里还不是很多,所以此类选材较为新颖,是一个很不错的选材思路。
需要入门学习TCGA可变剪切的学员,可以学习生信自学网原创录制的专利课程:
《可变剪切5分套路挖掘基于TCGA数据库》

此篇文章是2018年11月发表在医学2区期刊Frontiers in Oncology(IF=4.416)上,作者共下载了330个结肠癌转录组数据,深入分析了与结肠癌预后相关的关键可变剪切事件。

文献下载:关注微信公众号:biowolf_cn,回复“可变剪切”,即可下载文献原文。
文献:Genome-Wide Profiling of Prognostic Alternative Splicing Signature in Colorectal Cancer
背景:本研究旨在探索不同的RNA剪接模式并阐明剪接变异体在结直肠癌预后中的作用(CRC)。
方法:利用来自TCGA数据库的RNA-seq数据对预测性选择性剪接(AS)事件进行全基因组分析,以评估330例结直肠癌队列中7种AS模式的作用。采用Cox比例风险回归综合评价预后预测模型,根据生存相关事件与剪接因子的相关性,建立剪接网络。
结果:共鉴定出2158例与结直肠癌事件相关的生存率。有趣的是,这些前20名的生存率与AS事件相关的大多数是不良预后因素。根据每种剪接模式建立预后模型,对结直肠癌患者的风险分层表现良好。联合预测模型的接收机工作特性曲线下面积(AUC)可达0.963。剪接网络也提示了CRC患者剪接因子表达与AS事件的显著相关性。
结论:用13个基因的差异剪接模式建立了CRC患者危险分层的理想预测模型。我们的发现丰富了有关差异RNA剪接模式和剪接调控的知识,为治疗CRC提供了大量的生物标记候选物和潜在靶点。
研究思路
从TCGA数据库下载转录组数据,采用SpliceSeq进行可变剪切分析
针对可变剪切事件,进行单因素的Cox生存分析
针对显著的单因素可变剪接事件,进行多因素的Cox生存分析
构建预后预测模型,并进行性能评估
剪切因子和剪切事件进行关联分析,筛选出重要的剪切因子
 
可变剪切分析
采用SplicSeq软件对TCGA中的转录组数据进行可变剪切分析,分别统计可变受体位点(AA)、可变供体位点(AD)、可变启动子(AP)、可变终止子(AT)、内含子保留(RI)、外显子跳跃(ES)、外显子互斥(ME)等7种可变剪切形式的可变剪切事件。其中外显子跳跃类型的可变剪切事件最多。统计图如下:
 
单因素生存分析
7种类型的可变剪切事件,分别进行单因素的Cox生存分析,筛选出显著相关的可变剪切事件,并将发生该可变剪切事件的基因筛选出来。下图为7类可变剪切事件对应的风险比率。
 
多因素生存分析
针对这7类可变剪切事件,分别基于该类中显著的可变剪切事件,构建预后预测模型,再基于中位数划分,进行KM生存分析。
为了评估预后模型的性能,采用ROC曲线进行比较分析;基于所有可变剪切事件构建的预测模型最优。
 
可变剪切显著相关基因的互作分析
由于一个基因可能存在多种类型的可变剪切形式,分别统计含有不同类型可变剪切形式基因的数量。
 
基于这些生存显著相关可变剪接事件对应的基因,进行互作网络分析,一些关键基因与其他的基因存在相互作用,可能存在重要的作用。
可变剪切因子分析
针对显著的可变剪切事件,与剪切因子的表达量进行相关性分析。一些剪切因子与高风险的剪切事件相关,如:HNRNPAB,一些则与低风险比例的剪切事件相关,如:HSPA7。
 
文章亮点
本文从可变剪切入手,进行生存分析,构建预后模型,其研究对象具有一定的新颖性。在可变剪切分析中,进一步研究其上游调控的剪切因子,下游的蛋白互作,让整个的分析内容比较深入。而且本文完全是生物信息的数据挖掘,具有很强的可模仿性,值得其他类癌症研究借鉴。
生信自学网精品课程推荐:
《可变剪切5分文章套路基于TCGA数据库》
《单基因3-5挖掘套路基于TCGA数据库》
《肿瘤微环境基于TCGA数据库》
《肿瘤突变负荷TMB分析》



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码