之前的课程我们讲解了如何从GEO数据库检索芯片数据,这节课给大家讲解如何从下载的数据中提取需要的矩阵文件。
下载的数据是压缩包格式,首先解压,得到soft文件,然后用UI文本编辑器打开这个文件,里面有注释信息和我们需要的样本矩阵。从ID_REF开始是我们需要的矩阵数据,包括基因,样本,和表达数据,这些表达数据一般是取过log2的,也有特殊情况,正常情况,数值比较小的话,一般10以下,是取过log2的,如果数值很大就是没有取过log2的。 接下来需要在EXCEL里面对这个文件进行编辑,导入到EXCEL里面也需要一些技巧,因为有些基因导入到EXCEL里面会变成月份,这个可能基因命名的人也没有预料到。所以不能直接把soft文件拖入到EXCEL里面,这里有一个技巧,可以先新建一个EXCEL文件,比如有20个样本,那我们选取25列,右键属性,选择文本,这样,我们把UI编辑器里面的soft文件复制,然后黏贴到EXCEL里面就可以避免基因变成月份的情况了。 导入到EXCEL里面后,把相关注释信息删除掉,保留基因列,样本表达列。这里我们发现有些不是基因,是探针所在的染色体,这些行对于我们后续分析没有什么作用,在这里可以把这些探针删除。怎么样找到这些染色体呢?可以直接把这一列排序,就可以看到。 处理到这一步,我们把基因列,样本表达列,所有基因的行,复制出来保存到一个新的txt文件,就得到我们下节课需要用到的矩阵文件。得到一个行名是基因名,列名是样本名的矩阵。下节课我们会给大家讲解如何做差异表达分析,R脚本相关R包。
我们已经构建好了蛋白互作网络,接下来我们就希望使用cytosc...
相关性分析与PPI网络的构建...
GO与KEGG的富集分析...
1、差异分析 2、id转化...
单分析单因素就是将这里面的所有的因素,一个一个跟我们的生...
我们找到目标基因之后,我们想看一下我们的目标基因跟哪些临...