如果还没有得到转录本数据,那么先学习:TCGA下载和提取转录本数据
上节课我们得到了转录本数据文件,转录本数据文件的ID是Ensemble ID,如果做后期差异分析,我们希望用到GENE ID,GENE ID里面有mRNA、长链非编码RNA以及其他GENE ID。基于这个事实,我们可以分两步来提取mRNA和lncRNA矩阵。
点击导航栏里面的Download,进入下载页面
选择Download data via FTP,进入FTP下载页面
在下载页面选择Human物种,进入GTF文件下载页面
选择下载Homo_sapiens.GRCh38.88.chr.gtf.gz文件 加压缩既可以得到Ensemble ID的转换文件 2、Ensemble ID转换 把转录本原始文件、下载得到的Ensemble ID的转换文件、提取脚本文件放在一个文件夹内 在DOS环境下输入脚本命令,得到GENE ID矩阵文件 二、分离mRNA、lncRNA矩阵文件 步骤一得到的GENE ID矩阵,是含有所有GENE ID的,这里需要提取mRNA、和lncRNA的ID 方法就是根据mRNA和lncRNA的不同功能 mRNA的功能是编码,lncRNA是非编码GENE 根据这个原则,直接在EXCEL里面分别提取mRNA和lncRNA矩阵 当然这里涉及一个问题,矩阵文件一般都很大,如果做的癌症数据样本多,文件太大EXCEL是无法打开的 这个时候就要用到我们的脚本文件,直接提取。
这个就是我们最后得到的lncRNA矩阵文件 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |