生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

CPTAC蛋白质数据简介和数据下载

我们在做TCGA数据分析的时候,经常会遇到这样的问题:我们找到了关键基因后,想验证这个基因是否正在跟肿瘤相关。这个时候,我们通常有以下几种验证方法:1)对于有条件的实验室,可以通过自己做实验进行验证;2)通过geo数据库验证,geo缺点是很多数据没有临床随访信息;3)通过ArrayExpress、ICGC、CGGA、CCLE、SRA等其他数据库进行验证,这些我们都有相应的课程。
今天我们要给大家介绍下生信自学网全新的视频,蛋白质组数据库—CPTAC。这个数据库相当于其他验证方法优势在于,大多数其他数据库是从mRNA水平分析基因表达情况,CPTAC是从蛋白水平描述基因表达,更接近疾病的最原始表现形式。而且,CPTAC包含大量临床数据,可以很好的验证蛋白与生存和临床的关系。
蛋白质组是在一个细胞的整个生命过程中由基因组表达的以及表达后修饰的全部蛋白质。蛋白质组学是指在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互作用。蛋白质组的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理的阐明及攻克提供理论根据和解决途径。
CPTAC(clinical proteomic tumor analysis consortium ,临床蛋白质组肿瘤分析协作组) 整合了基因组和蛋白组的数据,旨在识别和描述肿瘤组织和正常组织中的全部蛋白,发掘可作为肿瘤生物标记的候选蛋白。

CPTAC数据下载:
在浏览器地址栏输入:https://cptac-data-portal.georgetown.edu/

进入CPTAC的官网,在页面中间找到菜单按钮“Data Files”,进入数据库协议页面,点击右下角接受按钮,然后进入数据页面,在数据页面有一个插件需要安装,安装了才能下载数据,根据浏览器提示下载安装好插件就可以了。




进入数据页面,页面往下,我们可以看到数据选择也,可以根据自己研究的肿瘤选择数据,首先可以点击Sample Type,对癌症类型排序


在选择的时候,我们一般选择“Prot Asmb.”有数据的,因为这个直接是矩阵数据,方便我们后期做分析,如果这一列没有数值,那么不是我们我们这个方法介绍的处理对象
比如我们这里选择排序后第一个作为研究对象“Brain”胶质瘤


然后进入选择的数据页面,可以看到数据介绍,可以看这些确定是不是我们研究的对象

接下来下载数据:
1、临床数据下载
找到页面“Clinical and Biospecimen Data”,把页面提供的临床数据都下载下来



2、蛋白质组数据
再数据页面选择“Proteome”数据,首先把ALL前面的勾选去掉,然后再“Prot. Asmb.”列下面的数字前面小框勾选,然后选择“Download Checked Files”下载数据,这里下载数据是需要安装插件的,如果刚进入的时候没有安装插件,这里就需要安装好插件才能下载


出现插件页面,点击允许,开始下载数据

插件下载数据

下载好所有数据我们就可以放在一起,做后续分析,生信自学网专门录制了CPTAC的课程,可以按照课程做后续分析



课程内容简介:

购买课程:
《CPTAC蛋白数据库挖掘》
精品课程推荐:
《TCGA蛋白数据库TCPA数据库挖掘》
《中药复方网络药理学联合GEO》
《TCGA单基因挖掘文章套路》



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码