生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信数据库 >

TCPA数据库临床数据下载和xml临床数据提取

TCPA数据库临床数据下载
因为TCPA和TCGA数据库样本是一致的,所以我们可以通过TCGA官网下载样本的临床数据,用于TCPA数据的后续分析
1、打开浏览器,输入TCGA官网TCGA GDC的官网网址:https://portal.gdc.cancer.gov
进入数据库页面,首先看右上角Cart,如果Cart不为0,说明有用过,需要把之前的数据清理掉,如果是0,可以进入下一步,点击“Repository”进入数据页面

2、在数据选择页面,首先选择左边菜单栏的“Cases”菜单
“Primary Site”选择研究的部位,比如胃:stomach

“Program”选择TCGA

“Project”选择TCGA-STAD

下面的其他项目可以根据自己需求选择,一般不做选择
然后进入“Files”菜单
“Data Category”选择:clinical
“Data Format”选择:bcr xml
其他无需选择,回到页面中间,点击“Add All Files to Cart”,这样的话,我们就把需要下载的数据放到Cart里面

点击右上角的Cart菜单,就可以进入数据下载页面

进入Cart页面,找到Download菜单,点击出现Manifest和Cart,点击Cart就可以下载数据了,下载下来的数据是一个样本一个xml文件,接下来就需要把这些xml文件整理成我们需要的临床文件

提取临床数据,用到的是perl软件,脚本是生信自学网原创的getClinical.pl脚本
进入cmd终端,cd进入数据所在的文件夹,然后输入命令:perl getClinical.pl
结果就出现在数据所在的文件夹,临床数据提取好了就可以用于后续的分析

精品课程推荐:
《中药复方网络药理学联合GEO》
《单细胞测序分析》
《TCGA单基因发文套路挖掘》



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码