生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > GEO >

CEO数据库单基因分析数据的注释及数据的矫正

GEO数据的注释及数据的矫正

1、数据的注释
我们已经从GEO数据库下载好了探针的矩阵和平台文件,接下来我们就要对GEO的数据进行注释。下图是我们下载好的矩阵,它的行名探针的名字,列名是样品名。因为平台文件里面有探针和我们基因名字的对应关系,所以根据平台文件,我们就可以将我们的探针的矩阵转化为基因的名字,得到我们基因的矩阵。

我们要先准备好我们的输入文件,输入文件就是我们之前得到的平台文件和矩阵文件,我们先把矩阵压缩包解压,将解压后的文件重命名为probeMatrix.txt文件,在将我们的平台文件重命名为ann.txt文件,这样我们的输入文件就准备好了。

之后我们打开cmd,用我们下载好的perl运行我们的脚本文件。运行完成后,我们就可以得到一个文件,这个文件就是注释后的文件。
在得到注释后的文件后,我们还需要对注释后的文件进行整理,我们将其中我们需要用到的数据放在一个txt文件中,方便做后续的分析,命名为clinical.xlsx文件。


2、数据的矫正
在得到基因的矩阵之后,我们要对基因的矩阵进行矫正,得到矫正后数据。

我们要用到的输入文件有注释后的数据矩阵文件和整理后的文件,还有我们生信自学网提供的脚本文件。我们先打开整理后的文件,将里面胃癌基因的名字全部都拷贝到一个txt文件中。

准备这一切后,我们就可以用我们下载好的R运行脚本文件,等到运行完成。我们可以得到一个normalize.txt文件,这就是矫正后的文件。




(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码