生信分析常见错误习惯
时间:2017-11-17 来源:原创 作者:森莘
微信公众号:biowolf_cn 点击:次
文件夹和文件名 可能很多学员很不屑,文件名有什么好注意的,而恰恰当前很多咨询的问题,看似很复杂,其实是非常简单的 ,就是在生信分析时需要一律使用英文,英文的文件夹名,英文的文件名。这样可以节省很多时间,避免很多错误。 在做GEO芯片分析,TCGA数据库挖掘分析,SEER数据库挖掘时,我们经常用到Perl语言,Perl作为一门编程语言,正则表达式的内置对于处理文本非常方便,而我们的生物信息就是保存大量系列的文本文件;而对于Perl的运行,如果熟悉的学员会知道,我们必须使用英文的文件名,否则很多Perl脚本在CMD环境下运行时会报错的。所以做生信分析,需要养成一个好的习惯,把文件名规范,文件夹更加要规范,这不仅可以在操作上避免错误,也可以在数据查找时提高效率,也可以在二次开发时提供便利。 在TCGA数据下载和处理时,我们经常会用到TCGA数据库官网提供的gdc下载工具,这个工具下载TCGA的数据是非常方便的,在这个步骤,有不少学员犯了错误,而且很难找到这样一个不易察觉的错误,就是当文件夹有总问时,运行gdc工具是会直接报错,而且这个错误已经有很多学员咨询过,所以大家需要养成一个良好的习惯。 对于英文基础一般的学员,可以用翻译软件,把自己需要命名的关键词翻译成英文,再作为文件夹和文件的名称,这对于文件整理和处理都是非常有好处的。 (责任编辑:伏泽 微信:18520221056) |
- 上一篇:R语言颜色调用如何选择
- 下一篇:新版TCGA分析概述TCGA改版后科研