GEO、TCGA、Oncomine应该选择哪一个?
时间:2019-07-30 来源:生信自学网 作者:乐伟
微信公众号:biowolf_cn 点击:次
生物大数据时代,数据越来越多了,数据库也越来越多了,各种各样的基因芯片数据库、蛋白质数据库...琳琅满目。面对如此多的数据库,我们不知挖那一个了。可分析的数据越来越多是好事情,但是却不知道如何选择?特别是初学者,每天做实验突然发现生信挖掘原来也可以分析,确不知道如何下手,真是令人头痛呀!最近有很多人问生信自学网,GEO、TCGA、Oncomine,我应该选择哪一个?哪一个比较简单?哪一个比较好文章、哪一个能发高分文章?哪一个不用学编程?哪一个容易上手?因此,面对这些问题生信自学网做一些总结。
1、GEO数据库
GEO是当今最大、最全面的公共基因表达数据资源。
适合研究方向:基本包括所有疾病,不是做肿瘤的小伙伴可以选这个。
难易程度:数据下载,整理都比较简单,分析过程需要perl和R编程,这里有点难度,总的来说难度一般。现在GEO数据库自己开发了GEO2R在线工具,可以很轻松的找到差异基因,这也给小伙伴们提供了很多便捷。
发文的高度:只做纯GEO数据挖掘的文章一般只能1-2分的文章,文章的分数偏低。单做GEO芯片分析是不够的,现在比较常见的是多芯片联合分析,得到差异基因之后做GO富集分析,KEGG富集分析,共表达网络构建PPI分析。这样才能发一个不错的paper
2、TCGA数据库
GDC数据下载网址:https://portal.gdc.cancer.gov/
TCGA由是美国国立癌症研究所提供的数据,美国 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年联合启动的项目,收录了33种癌症基因组测序数据。
适合研究方向:仅限于肿瘤,不是研究肿瘤方向的小伙伴就不要选择这个了。
难易程度:数据下载,整理都比较难,数据提取过程需要Perl或者Python、R,整一个分析过程需要perl和R编程,整体来说,难度偏高。
发文的高度:只做纯TCGA数据挖掘的文章能发3-5分的文章,发文章的分数比较高,985、211名校博士毕业妥妥的。
TCGA数据库是生信自学网分析的主打数据库,从表达数据到miRNA、lncRNA分析,SNP突变数据,CNV拷贝数变异,甲基化数据等下,都退出了TCGA相关的课程
3、Oncomine
数据下载网址:https://www.oncomine.org/resource/login.html
Oncomine是大型肿瘤基因芯片数据库,涵盖65个基因芯片数据集、4700个芯片及4亿8千万个基因表达数据,可用于分析基因表达差异、寻找离群值、预测共表达基因等。
适合研究方向:仅限于肿瘤,不是研究肿瘤方向的小伙伴就不要选择这个了。
难易程度:各种各样的分析,我们只要点击鼠标就可以了,不用任何编程,数据挖掘中最容易的一个。
发文的高度:只做纯Oncomine数据挖掘的文章保底能发2-3分的文章,做一个基因家族的分析发3分以上的文章基本没有问题,985、211名校博士毕业也是妥妥的,总的来说文章分数会比TCGA低一点。
通过以上分析,可以看出,最易上手、最简单的就是Oncomine, 但是只适合研究肿瘤的同学,难度最高和发文分数最高的就是TCGA,同样也只适合研究肿瘤方向的同学,GEO发的分数比较低,但是其他同学也可以做,例如研究糖尿病,心脑血管疾病等等。最后的选择还是根据自己个人的情况进行选择。
那么接下来需要告诉大家的好消息,依据各大生物数据库,生信自学网都开发了分析课程,大家只需要跟着课程简单的运行脚本,就可以得到和论文看到一样效果的数据和图片。
是不是有点小激动,最重要的是,编程工作我们全部搞定,大家不需要编程,只需要电脑操作,有入门课程也有各类套路课程。
购买课程可以直接进入:生信自学课堂
当然大家可以关注微信公众号:生信自学网,获取更多生信资讯,也可以在微信公众号直接下单。
如果大家需要选择入门课程,那么《GEO/TCGA/Oncomine数据库挖掘》课程最适合三大数据库入门,一个课程搞定三大数据库入门,非常实用。
(责任编辑:伏泽 微信:18520221056) |