生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

TCGA基因矩阵做差异表达

前面我们有给大家讲解如何整理TCGA数据,包括分散文件整理成矩阵,ID转换成gene symbol,生存数据的整理等。这篇短文给大家介绍如何做差异分析,差异表达得到的结果包括gene、logFC(差异倍数取log值)、logCMP(每测100万落在基因上的丰度)、PValue(0假设是指基因在正常和癌症组织之间没有差异)、FDR(矫正后的P值),数据如下面所示。
差异基因表格
做差异表达可以得到火山图,热图(低表达绿色标识,高表达用红色表示)
TCGA数据差异表达火山图
主要使用edgeR包做TCGA数据差异表达,用到R包,就需要安装R软件,R软件的安装相对比较简单,直接下载,安装和普通window程序一样。
安装R包

source("http://bioconductor.org/biocLite.R")
biocLite("edgeR")
install.packages("gplots")

安装包的使用可以直接用搜索引擎搜索“edgeR”,进入官方教程页面,就可以得到详细的安装和使用方法。

FoldChange=2
padj=0.01
setwd(" ")                   
library("edgeR")
bw=read.table("bw_symbol.txt",sep="\t",header=T,check.names=F)  
bw=as.matrix(bw)
rownames(bw)=bw[,1]
exp=bw[,2:ncol(bw)]
dimnames=list(rownames(exp),colnames(exp))
..
...
....

FoldChange=2
padj=0.01
这两句是设置参数
整个程序主要是:先打开所在文件夹,导入矩阵,导入R包,矩阵转换,剔除空白区域等
然后用R包对矩阵进行处理,得到差异基因
得到差异基因数据,火山图和热图就用其他R包很容易画出来。
TCGA做差异分析得到的热图


 

(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码