生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

Ensembl数据库的lncRNA分类

Ensembl数据库的lncRNA分类

TCGA数据库热度的持续上升,让另外一个数据库也访问量剧增,做过TCGA数据库分析的,都知道,TCGA的基因名采用的就是Ensembl ID,这样确保了基因的唯一性,6万多个基因的表达数据,确实需要一个容易辨识的gene name。TCGA数据库命名是非常严谨和前瞻性的,所以对命名要求很高,做过TCGA分析的就有这样的感觉,虽然TCGA数据量体极大,但数据非常规整,Ensembl ID被选中作为基因名称,随着TCGA分析不断升温,Ensemble热度也再上升中,而且这种趋势不断明显。

 
 

Ensemble ID

最近再分析lncRNA相关的工作,首要的是解决mRNA和lncRNA的定量问题,目前已知的lncRNA的数据库有GENCODE,NONCODE等。NONCODE上面的命名方式不太通用,但是注释的物种相对较多,而GENCODE注释信息相对通用,但是只有人和小鼠的注释信息。

再选择GENCODE作为lncRNA的参考数据库,查看GTF文件的时候发现其版本信息与Ensemble是对应的。

下载Ensemble的gtf文件,根据gtf文件最后一列的“gene_biotype”来确定基因的类型。分类说明:下载之后可以根据gtf文件提取每个基因的基因类型,“gene_biotype”说明可以参考网站的说明。
 
lncRNA注释

(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码