Ensembl数据库的lncRNA分类
时间:2017-06-22 来源:原创 作者:BioWolf
微信公众号:biowolf_cn 点击:次
Ensembl数据库的lncRNA分类 TCGA数据库热度的持续上升,让另外一个数据库也访问量剧增,做过TCGA数据库分析的,都知道,TCGA的基因名采用的就是Ensembl ID,这样确保了基因的唯一性,6万多个基因的表达数据,确实需要一个容易辨识的gene name。TCGA数据库命名是非常严谨和前瞻性的,所以对命名要求很高,做过TCGA分析的就有这样的感觉,虽然TCGA数据量体极大,但数据非常规整,Ensembl ID被选中作为基因名称,随着TCGA分析不断升温,Ensemble热度也再上升中,而且这种趋势不断明显。 Ensemble ID 最近再分析lncRNA相关的工作,首要的是解决mRNA和lncRNA的定量问题,目前已知的lncRNA的数据库有GENCODE,NONCODE等。NONCODE上面的命名方式不太通用,但是注释的物种相对较多,而GENCODE注释信息相对通用,但是只有人和小鼠的注释信息。 再选择GENCODE作为lncRNA的参考数据库,查看GTF文件的时候发现其版本信息与Ensemble是对应的。 下载Ensemble的gtf文件,根据gtf文件最后一列的“gene_biotype”来确定基因的类型。分类说明:下载之后可以根据gtf文件提取每个基因的基因类型,“gene_biotype”说明可以参考网站的说明。(责任编辑:伏泽 微信:18520221056) |
- 上一篇:TCGA构建Cox比例风险回归模型
- 下一篇:Cox比例风险回归模型分析