TCGA数据库挖掘,构建ceRNA调控网络 生物信息学是将分子生物学与信息处理技术结合,以计算机为工具对生物信息进行储存、检索和分析的交叉学科,其目的是利用各种数据库,分析整理其数据的意义而揭示大量复杂的生物数据所赋予的生物学奥秘。癌症基因组图谱(TCGA)数据库是由美国国家癌症研究所(NCI)及国家人类基因组研究所(NHGRI)联合建立,其中包括丰富的数据类型和肿瘤类型,不需要任何费用即可获得大量数据,其次在TCGA下载的数据已经经过了前期繁琐的标准化处理,节省了人工处理时间和资源。 一、 数据下载 使用TCGA数据库获取CESC肿瘤和正常配对组织的基因数据及miRNA数据。得到3个正常样本和304个CESC肿瘤样本。分别做临床分析、mRNA差异分析、lncRNA差异分析、miRNA差异分析、生存分析、ceRNA调控网络构建。 二、 临床分析 TCGA改版后下载的Clinnical数据是XML文件,一个样本一个XML文件,需要用Perl或者Python写程序提取需要的数据。下表是CESC一部分临床数据,仅供交流。 三、 mRNA差异表达 1、如何得到矩阵文件? 下载的是counts文件,每个样本的压缩包保存在单独的文件中。 首先需要把所有的压缩包放在同一个文件夹内,统一解压,然后从几百个counts文件提取矩阵。得到Ensembl的矩阵,用Homo_sapiens.GRCh38.87.chr.gtf文件进行转换,得到symbol的矩阵,包括mRNA,和lncRNA及其他一起。 分别提取mRNA的矩阵和lncRNA的矩阵。 2、使用R的edgeR包,筛选条件|logFC|>2 & FDR<0.01 得到1933个差异基因,1195个下调,738个上调,部分差异基因如下表 四、lncRNA差异表达 1、获得lncRNA矩阵 TCGA数据库下载的转录数据,包含mRNA和lncRNA,是在同一部分文件中,提取lncRNA矩阵选取antisense、lincRNA、sense_intronic等。 2、使用edgrR包,筛选条件|logFC|>2 & FDR<0.01,得到494个差异lncRNA,其中下调360个,上调134个,部分差异lncRNA如下表 五、miRNA差异表达 1、首先需要获得miRNA的矩阵文件,从TCGA下载下来的是每个样本单独的矩阵文件,需要利用perl或者python脚本提取,提取得到需要进行分析的文本文件。 2、使用edgrR包,筛选条件|logFC|>2 & FDR<0.01,得到74个差异miRNA,其中下调43个,上调31个,部分差异miRNA如下表: 六、ceRNA网络构建 1、用在线工具,比如mircode,做lncRNA和miRNA的比对,这一步是构建ceRNA的关键。这里494个差异lncRNA和74个差异miRNA进行比对。得到50个DElncRNA和18DEmiRNA相互作用。 2、miRNA靶基因预测 利用TargetScan、miRDB、miRanda、miRTarBase在线工具对18个miRNA进行靶基因预测,得到的靶基因在去和差异基因做淘汰,得到81个靶基因也就是DEmRNA。 3、构建ceRNA网络 经过一次比对,一次预测,最终得到50个DElncRNA、18个DEmiRNA和81个DEmRNA,以及它们之间的相互关系。使用cytoscape对具有相关性的lncRNA、miRNA、miRNA靶基因进行可视化。就可以得到ceRNA网络。cytoscape的使用有很多学问,如何做出漂亮的图需要很多时间和审美。 七、生存曲线 点击购买课程 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |