Ensembl数据库的lncRNA分类
时间:2017-06-22 23:46来源:原创 作者:BioWolf 点击:
次
Ensembl数据库的lncRNA分类,TCGA数据库挖掘是需要用到lncRNA的矩阵,这个时候就需要ID转换,lncRNA的分类就很重要。
TCGA数据库热度的持续上升,让另外一个数据库也访问量剧增,做过TCGA数据库分析的,都知道,TCGA的基因名采用的就是Ensembl ID,这样确保了基因的唯一性,6万多个基因的表达数据,确实需要一个容易辨识的gene name。TCGA数据库命名是非常严谨和前瞻性的,所以对命名要求很高,做过TCGA分析的就有这样的感觉,虽然TCGA数据量体极大,但数据非常规整,Ensembl ID被选中作为基因名称,随着TCGA分析不断升温,Ensemble热度也再上升中,而且这种趋势不断明显。
最近再分析lncRNA相关的工作,首要的是解决mRNA和lncRNA的定量问题,目前已知的lncRNA的数据库有GENCODE,NONCODE等。NONCODE上面的命名方式不太通用,但是注释的物种相对较多,而GENCODE注释信息相对通用,但是只有人和小鼠的注释信息。
再选择GENCODE作为lncRNA的参考数据库,查看GTF文件的时候发现其版本信息与Ensemble是对应的。
下载Ensemble的gtf文件,根据gtf文件最后一列的“gene_biotype”来确定基因的类型。分类说明:下载之后可以根据gtf文件提取每个基因的基因类型,“gene_biotype”说明可以参考网站的说明。
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
|
BioWolf二维码生成器
------分隔线----------------------------