提取GEO表达谱芯片的数据矩阵-生信自学网

之前的课程我们讲解了如何从GEO数据库检索芯片数据，这节课给大家讲解如何从下载的数据中提取需要的矩阵文件。

下载的数据是压缩包格式，首先解压，得到soft文件，然后用UI文本编辑器打开这个文件，里面有注释信息和我们需要的样本矩阵。从ID_REF开始是我们需要的矩阵数据，包括基因，样本，和表达数据，这些表达数据一般是取过log2的，也有特殊情况，正常情况，数值比较小的话，一般10以下，是取过log2的，如果数值很大就是没有取过log2的。
芯片介绍
接下来需要在EXCEL里面对这个文件进行编辑，导入到EXCEL里面也需要一些技巧，因为有些基因导入到EXCEL里面会变成月份，这个可能基因命名的人也没有预料到。所以不能直接把soft文件拖入到EXCEL里面，这里有一个技巧，可以先新建一个EXCEL文件，比如有20个样本，那我们选取25列，右键属性，选择文本，这样，我们把UI编辑器里面的soft文件复制，然后黏贴到EXCEL里面就可以避免基因变成月份的情况了。
ID矩阵
ID矩阵截图
导入到EXCEL里面后，把相关注释信息删除掉，保留基因列，样本表达列。这里我们发现有些不是基因，是探针所在的染色体，这些行对于我们后续分析没有什么作用，在这里可以把这些探针删除。怎么样找到这些染色体呢？可以直接把这一列排序，就可以看到。
矩阵文件
处理到这一步，我们把基因列，样本表达列，所有基因的行，复制出来保存到一个新的txt文件，就得到我们下节课需要用到的矩阵文件。得到一个行名是基因名，列名是样本名的矩阵。下节课我们会给大家讲解如何做差异表达分析，R脚本相关R包。

责任编辑：伏泽
作者申明：本文版权属于生信自学网（微信号：18520221056）未经授权，一律禁止转载！

搜索

热门标签:

提取GEO表达谱芯片的数据矩阵