生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信答疑 >

学习TCGA数据库挖掘基础课程常见问题

TCGA数据库的挖掘是一项复杂的工作,经过1年多的努力,不断攻克难关,团队终于把TCGA数据库挖掘的代码都整理出来,录制成课程供需要的学员付费学习,当然也可以参加我们在各地开设的TCGA数据库挖掘培训班。
在学习课程过程中,难免遇到一些问题,有些学员有一定的分析基础,可以把相关问题解决,对于生信基础薄弱,需要得到论文需要的图和数据,就需要多花时间,遇到不懂的地方,直接咨询我们的老师,QQ:2749657388;微信:corale66
常见的问题做一下总结
一、软件的安装
TCGA数据库基础分析课程,包括R软件的安装,R包的安装,以及TCGA官网提供数据下载的gdc工具下载使用
R软件安装和其他window软件安装是一样的,这个大家都容易上手,经常出问题的地方就是R包的安装,介于电脑配置不同,系统不同,经常有各式各样的问题,再生信自学网我们也总结了一下,R包安装大家可以参考:R包安装常见问题

gdc工具是一个压缩包软件,解压就可以使用了,在CMD环境下,参照课程讲解很容易。
R包安装
二、TCGA数据库改版
这个问题很多学员问到,一个网站的界面会经常改动,这个也说明我们后台工作人员在更新,这也正是TCGA团队值得称赞,数据值得信赖的依据,如果一个网站几年都不更新,那其中的数据也是没有什么价值的。当然界面经常改版,TCGA的数据却不经常改动,也就是说,我们下载的样本数据在一段时间是不会改变的,做一次重大数据调整涉及相对大的工作量,因为TCGA数据库的数据体量实在很大。
TCGA最新一次改版是在7月份,课程有些在线操作界面有所改动,大家在学习过程中可以参照:
TCGA改版说明

三、GDC工具数据下载
在数据下载过程中,有些学员经常遇到问题,这里需要提醒大家的是,耐心,不要着急,TCGA一个癌症的样本一般在300-500个,所以我们需要下载几百个样本数据,时间上肯定是需要的,在CMD输入下载命令之后,经常遇到某些样本没有下载成功,这个时候,要等工具下载完成检查有多少样本没有下载,如果是5个一下,可以用单个下载命令下载:
gdc工具+downlod+样本代号
如果是10个以上的样本没有下载成功,建议按照课程重新输入下载命令,重新输入下载命令,之前下载好的是不需要删除的,软件会自动覆盖,下载完成之后,我们可以拖动一下工作文件夹,看看里面有多少个文件,这样也可以验证是否下载完全。
四、差异分析
差异分析参数是可以改动的,foldChange=1,padj=0.05;这个是我们代码默认的,foldChange=1或者foldChange=2;padj=0.05或者padj=0.01或者padj=0.001;这个看分析癌症的差异情况,如果差异基因太多,可以把条件限制严格。foldChange越大,padj越小,得到的结果是会越少的。
差异分析时如果报错,请检查输入文件,也就是我们得到的矩阵文件,看看是不是哪一行有空,也就是如果某行没有数据,代码是会报错的,这个问题经常有学员遇到。
参数修改
五、DESeq包运行
做差异分析我们用到了edgeR和DESeq,这里需要说明的是DESeq包比edgeR包严格很多,而且DESeq需要占用非常大的内存,很多学员遇到这样的问题,edgeR包可以顺利得到结果,DESeq包却卡死,这个不用担心,运行不出来,我们直接用edgeR运行的结果就可以了。
六、生存曲线
生存分析经常问到问题,这里需要注意的是在准备输入文件时,futime这个列是需要检查的,如果futime这一列有unkown的话,R软件运行会报错。
生存分析报错
七、网易云课程学习
购买课程之后,进入学习,找到课程,有时视频不显示,可能是网速问题,直接刷新几次就可以了。购买课程之后,代码获取直接找QQ:2749657388,把购买的订单号截图,就可以了。
后面遇到其他问题咨询,会陆续更新在上面,大家可以参考学习。


(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码