就在线学习而言,重要的不是你花了多少钱,而是你投入了多少时间和精力。

BioWolf-TCGA数据库挖掘

当前位置: 主页 > 论文报告 >

癌症图谱数据下载整理做生存分析

时间:2017-06-05 08:39来源:原创 作者:BioWolf 点击:
TCGA数据挖掘,新思路分享,这里可以出很多大文章,需要的直接联系QQ:2749657388。马上开始TCGA数据相关课题发表
TCGA数据库分析宫颈鳞状细胞癌(CESC)
生物信息学是将分子生物学与信息处理技术结合,以计算机为工具对生物信息进行储存、检索和分析的交叉学科,其目的是利用各种数据库,分析整理其数据的意义而揭示大量复杂的生物数据所赋予的生物学奥秘。癌症基因组图谱(TCGA)数据库是由美国国家癌症研究所(NCI)及国家人类基因组研究所(NHGRI)联合建立,其中包括丰富的数据类型和肿瘤类型,不需要任何费用即可获得大量数据,其次在TCGA下载的数据已经经过了前期繁琐的标准化处理,节省了人工处理时间和资源。
 
一、 数据下载
使用TCGA数据库获取CESC肿瘤和正常配对组织的基因数据及miRNA数据。得到3个正常样本和304个CESC肿瘤样本。分别做临床分析、mRNA差异分析、lncRNA差异分析、miRNA差异分析、生存分析、ceRNA调控网络构建。
TCGA数据下载视频材料


关注微信公众号即可获得TCGA数据下载视频学习,回复相关关键词,获得更多分享。
 
二、 临床分析
TCGA改版后下载的Clinnical数据是XML文件,一个样本一个XML文件,需要用Perl或者Python写程序提取需要的数据。下表是CESC一部分临床数据,仅供交流。
 

三、 mRNA差异表达
1、如何得到矩阵文件?
下载的是counts文件,每个样本的压缩包保存在单独的文件中。
首先需要把所有的压缩包放在同一个文件夹内,统一解压,然后从几百个counts文件提取矩阵。得到Ensembl的矩阵,用Homo_sapiens.GRCh38.87.chr.gtf文件进行转换,得到symbol的矩阵,包括mRNA,和lncRNA及其他一起。
分别提取mRNA的矩阵和lncRNA的矩阵。




2、使用R的edgeR包,筛选条件|logFC|>2 & FDR<0.01
得到1933个差异基因,1195个下调,738个上调,部分差异基因如下表


3、用heatmap包得到前100上调差异基因和前100下调差异基因的热图
 
4、GO功能分析
DAVID在线工具分析所有差异基因的GO功能,筛选条件PValue<0.01,得到223个GO。用R做柱状图得到GO功能分析图:


关注微信公众号,点击视频学习,就可以学习GO功能分析的视频,更多分享可直接留言。
5、KEGG分析
对差异差异基因做KEGG分析,使用的是KOBAS 3.0,这是一款简单容易操作的在线分析工具,需要注意的是,KOBAS在线工具需要输入的是Entrez Gene ID,而我们得到的差异基因是Gene ID,这个需要转换,转换的工具很多,我们选择DAVID在线工具做转换。结果可以得到KEGG通路图和详细的表,筛选条件P-Value<0.01,得到67个KEGG通路,其中一条通路如下图:



6、蛋白互作网络
蛋白互作网络在论文出现的次数没有以前频繁,不过要看文章研究的重点和方向。我们选择String软件作为研究工具,这款可视在线工具使用非常简单,需要注意的是输入的Gene ID不能超过2000,输出PNG时需要对图片进行调整,调整有很多参数可以选择,比如相关性、是否出现游离基因,如果图片很大很混乱,需要把相关性调大,一般情况下剔除游离基因。
得到下面的蛋白互作网络:


7、差异基因生存分析
生存曲线非常常见,直观的说明很多问题,生存曲线生成的软件很多,我们还是使用R语言,可以批量生存,相关参数也可以提取,简单高效。
首先需要用Calinical数据得到time表,也就是每个样本的生存时间和生存状态。
然后用time和矫正后的矩阵,输入差异基因,得到差异基因相关的生存数据。
最后使用R包,进行生存曲线制造,筛选条件P<0.05
1933个差异基因得到215个生存曲线


 
四、lncRNA差异表达
1、获得lncRNA矩阵
TCGA数据库下载的转录数据,包含mRNA和lncRNA,是在同一部分文件中,提取lncRNA矩阵选取antisense、lincRNA、sense_intronic等。

2、使用edgrR包,筛选条件|logFC|>2 & FDR<0.01,得到494个差异lncRNA,其中下调360个,上调134个,部分差异lncRNA如下表

火山图

3、上调前100个,下调前100个lncRNA聚类做热图

4、差异lncRNA分别做生存曲线

生存曲线非常常见,直观的说明很多问题,生存曲线生成的软件很多,我们使用R语言,可以批量生存,相关参数也可以提取,简单高效。
首先需要用Calinical数据得到time表,也就是每个样本的生存时间和生存状态。
然后用time和矫正后的矩阵,输入差异lncRNA,得到差异lncRNA相关的生存数据。
最后使用R包,进行生存曲线制造,筛选条件P<0.05,得到41个相关的生存曲线。



 五、miRNA差异表达
1、首先需要获得miRNA的矩阵文件,从TCGA下载下来的是每个样本单独的矩阵文件,需要利用perl或者python脚本提取,提取得到需要进行分析的文本文件。

2、使用edgrR包,筛选条件|logFC|>2 & FDR<0.01,得到74个差异miRNA,其中下调43个,上调31个,部分差异miRNA如下表:

3、热图分析,分析和前面mRNA差不多。

4、生存曲线,一般情况下分析lncRNA的生存曲线就可以了,当然了,这个看需求,有些论文需要用到,这里也一起加进去。
 
六、ceRNA网络构建
1、用在线工具,比如StarBase,做lncRNA和miRNA的比对,这一步是构建ceRNA的关键。这里494个差异lncRNA和74个差异miRNA进行比对。得到39个DElncRNA和18DEmiRNA相互作用。

2、miRNA靶基因预测
利用TargetScan、miRDB、miRanda、miRTarBase在线工具对18个miRNA进行靶基因预测,得到的靶基因在去和差异基因做淘汰,得到69个靶基因也就是DEmRNA。

3、构建ceRNA网络
经过一次比对,一次预测,最终得到39个DElncRNA、18个DEmiRNA和69个DEmRNA,以及它们之间的相互关系。使用cytoscape对具有相关性的lncRNA、miRNA、miRNA靶基因进行可视化。就可以得到ceRNA网络。cytoscape的使用有很多学问,如何做出漂亮的图需要很多时间和审美。

关注微信公众号,可以学习Cytoscape构建蛋白互作网络、ceRNA关系网络视频材料
更多视频材料将持续更新
4、DEmRNA的GO功能分析
5、DEmRNA的KEGG功能分析
如果觉得帖子对你有帮助,记得关注微信公众号,如果需要TCGA数据挖掘服务,可直接联系QQ:2749657388

(责任编辑:乐老师) 马上与乐老师QQ联系 生物信息学
BioWolf二维码生成器
顶一下
(2)
66.7%
踩一下
(1)
33.3%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
BioWolf打赏
推荐内容
一对一培训视频教程
生物信息学在线培训