生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > 生信答疑 >

生信分析常见错误习惯

文件夹和文件名
可能很多学员很不屑,文件名有什么好注意的,而恰恰当前很多咨询的问题,看似很复杂,其实是非常简单的 ,就是在生信分析时需要一律使用英文,英文的文件夹名,英文的文件名。这样可以节省很多时间,避免很多错误。
在做GEO芯片分析,TCGA数据库挖掘分析,SEER数据库挖掘时,我们经常用到Perl语言,Perl作为一门编程语言,正则表达式的内置对于处理文本非常方便,而我们的生物信息就是保存大量系列的文本文件;而对于Perl的运行,如果熟悉的学员会知道,我们必须使用英文的文件名,否则很多Perl脚本在CMD环境下运行时会报错的。所以做生信分析,需要养成一个好的习惯,把文件名规范,文件夹更加要规范,这不仅可以在操作上避免错误,也可以在数据查找时提高效率,也可以在二次开发时提供便利。
在TCGA数据下载和处理时,我们经常会用到TCGA数据库官网提供的gdc下载工具,这个工具下载TCGA的数据是非常方便的,在这个步骤,有不少学员犯了错误,而且很难找到这样一个不易察觉的错误,就是当文件夹有总问时,运行gdc工具是会直接报错,而且这个错误已经有很多学员咨询过,所以大家需要养成一个良好的习惯。
对于英文基础一般的学员,可以用翻译软件,把自己需要命名的关键词翻译成英文,再作为文件夹和文件的名称,这对于文件整理和处理都是非常有好处的。

(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码