ICGC数据库数据提取表达矩阵/如何提取癌症数据
时间:2019-07-30 来源:生信自学网 作者:乐伟
微信公众号:biowolf_cn 点击:次
在前面的推文中,我们给大家介绍了ICGC数据库简介,大家有对这个数据库有了一个直观的认识 又给大家介绍了ICGC数据库如何下载数据,可以做哪些癌症分析,今天给大家介绍如何利用下载的的数据文件,提取表达矩阵 在介绍提取表达矩阵之前,有必要再给大家介绍一下ICGC数据库 数据库成立背景 由于人口的增长和老龄化,全球癌症的发病率和死亡率正在上升。据估计,2007年全世界诊断出的新病例超过1,200万,并且发生了约760万例癌症死亡事件;如果我们的预防,诊断和治疗癌症的能力没有改善,这些数字将上升到预计的2700万新病例和2050年的1750万癌症死亡人数。癌症对个人,家庭和社会的后果是巨大的。虽然很难估计财务成本,但通过医疗保健系统的直接成本和经济产出损失的间接成本,这些成本也很大。癌症中存在许多病因学因素,包括感染,暴露于化学物质(例如烟草烟雾),饮食,辐射(例如在阳光下)和遗传。虽然这些因素中的一些是可以预防的,但其中很多不是。 介绍 ICGC全称是International Cancer Genome Consortium (国际癌症基因组联合体)。其旨在发起和协调大量的研究项目,其共同目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。 ICGC的主要目标是在全球范围内具有临床和社会重要性的50种不同癌症类型和/或亚型的肿瘤中生成全面的基因组异常(体细胞突变,基因异常表达,表观遗传修饰)目录数据,尽可能快地向整个研究团体提供数据,并且以最小的限制,加速研究癌症的成因和控制。 ICGC促进了成员之间的沟通,并为广大科研人员提供了一个平台,达成治疗和预防这些疾病的最大化目标。 ICGC Data Portal提供了用于可视化,查询和下已发布的数据的数据工具。 目前存量 Cancer projects 76 Cancer primary sites 21 Donors with molecular data in DCC 17,440 Total Donors 20,383 Simple somatic mutations 68,194,271 Mutated Genes 57,668 看完这些,我们感觉这个数据库也是非常强大的,可挖掘的内容也是非常多的 1、首先我们看下下载好的的数据,今天会利用其中两个文件做提取分析 6个文件分别代表什么,我们在前面的推文有讲解,用表达文件和样本保存文件做分析 如果需要学习更多ICGC挖掘的内容,可以购买课程《ICGC数据库挖掘差异/生存/lasso回归/COX模型/独立预后/列线图》 2、我们来看下specimen文件包含哪些内容:样本代号和病人编号 然后是样本代号说明,是癌旁样本还是癌症样本: 3、接下来看下下载好的表达文件,这个文件非常大,现在我们拿来做分析的是3G,所以有些小伙伴想用excel做提取的想法要破灭了,还是得用生信自学网为大家准备的原创perl脚本 我们可以看到,在表达数据库文件中,有样本代号,病人编号,已经基因的表达量,有这些数据就好办了,我们可以根据刚才样本说明文件和这个数据库文件,整合得到我们需要的表达矩阵: 有了这个矩阵,行名为基因名,列名为样本名,的表达量文件,后面我们就可以自由发挥了,可以做好多分析。而且我们这里提取的样本名,把样本编号,病人编码,已经是癌旁或癌症样本都标记清楚了,一下子感觉轻松了好多,原来ICGC得到的数据是这样的,后面的分析,我也可以哦 如果需要学习更多ICGC挖掘的内容,可以购买课程《ICGC数据库挖掘差异/生存/lasso回归/COX模型/独立预后/列线图》 (责任编辑:伏泽 微信:18520221056) |