知识的价值不在于占有,而在于使用。

生信自学网-速科生物-生物信息学数据库挖掘视频教程

当前位置: 主页 > GEO >

NCBI数据库GEO芯片检索和下载

时间:2017-06-05 14:21来源:原创 作者:BioWolf 点击:
这节课给大家讲解如何从NCBI数据库检索GEO芯片,下载矩阵文件,用来做GEO芯片的差异分析。

一、数据库:NCBI数据库
二、主要内容:GEO芯片检索,下载矩阵文件
三、分析案例:cervical cancer 宫颈癌
三:概念介绍
1、为了支持公共使用和散布基因表达数据,NCBI开始了基因表达汇编(GEO)计划。GEO是努力建立一个基因表达数据仓库和在线资源,用于从任何物种或人造的来源检索基因表达数据。来自microarray,高密度寡核苷酸array(HAD),杂交膜(filter)和SAGE的许多类型的基因表达数据都被接受,登记,和存档,作为一个公共数据集合。一系列预先计算的数据的定义和描述,以及用于交互检索和分析这些表达数据的在线工具即将放入。
NCBI数据库截图
2、平台(Platform):平台数据包含阵列或序列,以及阵列平台的简要描述,每一个平台都分配一个特有的检索号GPL***
3、样本(Sample):以一个平台为基础、描述某个杂交实验室或者实验条件的所有特征因素的大量测量信息,即关于被检查的mRNA样本,实验条件,和实验产生的基因表达测量数据信息。每一个样本有一个而且只有一个必须被先前确定的亲代平台,同一个提交者,一个平台和许多序列有关。每个样本均分配一个特有的检索号:GSM***
4、系列:样本收集,样本是如何相关的,如何排序的,分析是如何进行的,和聚类数据是如何获得的信息。
三、步骤:
1、登录NCBI官网,网址:https://www.ncbi.nlm.nih.gov/geo/

选择TOOL下面的“Search for Studies at GEO DataSets”进入搜索页面
2、在检索框输入:cervical cancer (乐老师最近研究重点就是CESC宫颈鳞状细胞癌,TCGA数据库也是研究这个癌症)
点击Search开始检索,得到的结果是芯片数据
NCBI搜索框
3、我们以“Lymph node-positive, early stage cervical cancer”这个芯片为例,来继续讲解,点击标题进入芯片介绍页面。
主要包括几方面的信息:Title标题、Summary摘要、Organism物种、Platform平台、Citation引用、Reference Series系列、Sample count样本数目
表达谱芯片
4、芯片选择标准:
4.1、主要考虑研究方向,标题相关性,“
淋巴结阳性,早期宫颈癌”与我们研究课题比较相关
4.2、平台文件,芯片平台是不是常见平台文件
4.3、样本数目,获得一定样本数目的芯片是差异分析的前提
芯片详情

 



芯片详情页
5、点击GSE26511,这个是芯片的检索号,进入芯片详情页面
重点关注芯片的简介信息,样本的分类,一般情况下样本是normal和tumor两大类,这个也是后续做差异分析的基础。
表达谱芯片样本
6、下载表达矩阵,以及平台文件
平台文件下载方法:点击GPL570,进入平台详情页,找到"Annotation SOFT table"即可下载
平台文件
矩阵文件下载方法:在GSE26511详情页面,点击“Series Matrix File(s)”,即可进入FTP页面,点击“GSE26511_series_matrix.txt.gz”即可下载矩阵文件
矩阵文件
接下来是如何用矩阵文件和平台文件,得到GENE矩阵文件。我们下节课再讲解。


加生信自学网群
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
BioWolf二维码生成器
------分隔线----------------------------
GEO芯片数据库挖掘生信视频教程
推荐内容
TCGA数据库挖掘文章套路生信视频教程
中药复方网络药理学文章套路生信视频教程