生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

TCGA表达数据分离mRNA和lncRNA矩阵

如果还没有得到转录本数据,那么先学习:TCGA下载和提取转录本数据

上节课我们得到了转录本数据文件,转录本数据文件的ID是Ensemble ID,如果做后期差异分析,我们希望用到GENE ID,GENE ID里面有mRNA、长链非编码RNA以及其他GENE ID。基于这个事实,我们可以分两步来提取mRNA和lncRNA矩阵。
一、ID转换
1、下载
Ensemble ID的转换文件
进入Ensemble的官网:http://www.ensembl.org/index.html

点击导航栏里面的Download,进入下载页面
ensembl网站截图

选择Download data via FTP,进入FTP下载页面
FTP截图

在下载页面选择Human物种,进入GTF文件下载页面
GTF文件截图

选择下载Homo_sapiens.GRCh38.88.chr.gtf.gz文件
GRCh文件截图

加压缩既可以得到Ensemble ID的转换文件

2、Ensemble ID转换

把转录本原始文件、下载得到的Ensemble ID的转换文件、提取脚本文件放在一个文件夹内

在DOS环境下输入脚本命令,得到GENE ID矩阵文件

二、分离mRNA、lncRNA矩阵文件

步骤一得到的GENE ID矩阵,是含有所有GENE ID的,这里需要提取mRNA、和lncRNA的ID

方法就是根据mRNA和lncRNA的不同功能

mRNA的功能是编码,lncRNA是非编码GENE

根据这个原则,直接在EXCEL里面分别提取mRNA和lncRNA矩阵

当然这里涉及一个问题,矩阵文件一般都很大,如果做的癌症数据样本多,文件太大EXCEL是无法打开的

这个时候就要用到我们的脚本文件,直接提取。

这个就是我们最后得到的lncRNA矩阵文件
lncRNA矩阵
加入微信公众号获得更便捷学习资料,学习、合作请直接联系QQ:2749657388


(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码