TCGA数据库改版SNP如何下载获取input.maf 2022年TCGA数据库大改版,转录本数据和SNP数据下载完全不同了,转录本数据下载提取可以参考一下这个短文(点击查看)。这里给大家介绍一下改版后如何下载SNP数据,然后用pl脚本如何提取TMB和整理input.maf,之前学过生信自学网的课程应该清楚,用到SNP数据的话,一般用到了input.maf和TMB.txt或者还有geneMut.txt。 改版之前下载的界面是这样的,可以直接下载,下载之后改个名称就是input.maf,直接用于后续绘制瀑布图和提取TMB数据, 改版之后,一个样本一个maf文件,这下可发愁了,不用急,方法来了。 和往常一样,打开浏览器,输入我们熟悉的gdc官网页面:https://portal.gdc.cancer.gov/ 。 进入之后先确认下Cart为空,否则下载数据可能会出错,然后点击菜单“Repository”,进入之后左上角有两个菜单,先选择“Cases”,在“Cases”里面的“Program”选择TGCA,这个没有问题,“Project”选择自己研究的肿瘤类型,比如这里选择TCGA-STAD(也就是我们常用的胃癌)。 然后选择“Files”菜单栏,“Data Category”选择simple nucleotide variation,“Data Tyep”选择Masked Somatic Mutation,选好之后, 点击中间部位的菜单栏“Add All Files to Cart”,把数据放入购物车,然后进入类似购物车的“Cart”菜单,在Download菜单下载Cart,也就是数据压缩包,点击之后需要耐心等待,后台正在打包,打包好之后就会进入浏览器下载模式,接下来就等待下载,同时也可以把Manifest文件下载下来,如果后面用得到的话。 接下啦就是数据这里提取阶段,这里分三步: 1、把下载的gdc压缩包解压,把生信自学网写好的脚本moveMutFiles.pl复制到解压后的文件夹,和其他数据文件夹放一起,进入cmd终端,cd进入放数据的文件夹,然后输入命令perl moveMutFiles.pl,就可以把每个单独的maf文件整理到一个文件夹files里面 2、打开files文件夹,全选,右键,解压到当前文件夹 3、解压好之后,把生信自学网写好的脚本TMB.pl复制到和这些maf文件放一起,进入cmd终端,cd进入文件夹,在cmd界面输入命令perl TMB..pl。耐心等待,就可以等到结果文件input.maf,TMB.txt,geneMut.txt,然后照着生信自学网的官网课程,进行其他操作,祝大家学习顺利,工作顺利。 以前TMB.pl一步提取,现在数据库更新,方法代码进行更新,整理和提取SNP数据需要perl moveMutFiles.pl、TMB.pl两步搞定 下载和整理SNP的学员需要更新或者需要付费获取的联系微信客服:18520221056 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |