知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > 生信答疑 >

TCGA数据库改版SNP如何下载获取input.maf

时间:2022-04-11 10:08来源:生信自学网 作者:伏泽 点击:
TCGA数据库改版SNP如何下载获取input.maf
TCGA数据库改版SNP如何下载获取input.maf
2022年TCGA数据库大改版,转录本数据和SNP数据下载完全不同了,转录本数据下载提取可以参考一下这个短文(点击查看)。这里给大家介绍一下改版后如何下载SNP数据,然后用pl脚本如何提取TMB和整理input.maf,之前学过生信自学网的课程应该清楚,用到SNP数据的话,一般用到了input.maf和TMB.txt或者还有geneMut.txt。
改版之前下载的界面是这样的,可以直接下载,下载之后改个名称就是input.maf,直接用于后续绘制瀑布图和提取TMB数据,

改版之后,一个样本一个maf文件,这下可发愁了,不用急,方法来了。
和往常一样,打开浏览器,输入我们熟悉的gdc官网页面:https://portal.gdc.cancer.gov/

进入之后先确认下Cart为空,否则下载数据可能会出错,然后点击菜单“Repository”,进入之后左上角有两个菜单,先选择“Cases”,在“Cases”里面的“Program”选择TGCA,这个没有问题,“Project”选择自己研究的肿瘤类型,比如这里选择TCGA-STAD(也就是我们常用的胃癌)。

然后选择“Files”菜单栏,“Data Category”选择simple nucleotide variation,“Data Tyep”选择Masked Somatic Mutation,选好之后,

点击中间部位的菜单栏“Add All Files to Cart”,把数据放入购物车,然后进入类似购物车的“Cart”菜单,在Download菜单下载Cart,也就是数据压缩包,点击之后需要耐心等待,后台正在打包,打包好之后就会进入浏览器下载模式,接下来就等待下载,同时也可以把Manifest文件下载下来,如果后面用得到的话。

接下啦就是数据这里提取阶段,这里分三步:

1、把下载的gdc压缩包解压,把生信自学网写好的脚本moveMutFiles.pl复制到解压后的文件夹,和其他数据文件夹放一起,进入cmd终端,cd进入放数据的文件夹,然后输入命令perl moveMutFiles.pl,就可以把每个单独的maf文件整理到一个文件夹files里面


2、打开files文件夹,全选,右键,解压到当前文件夹

3、解压好之后,把生信自学网写好的脚本TMB.pl复制到和这些maf文件放一起,进入cmd终端,cd进入文件夹,在cmd界面输入命令perl TMB..pl。耐心等待,就可以等到结果文件input.maf,TMB.txt,geneMut.txt,然后照着生信自学网的官网课程,进行其他操作,祝大家学习顺利,工作顺利。


以前TMB.pl一步提取,现在数据库更新,方法代码进行更新,整理和提取SNP数据需要perl moveMutFiles.pl、TMB.pl两步搞定
下载和整理SNP的学员需要更新或者需要付费获取的联系微信客服:18520221056



加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程