生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > TCGA >

共表达预测lncRNA靶基因

共表达预测lncRNA靶基因

我们找到了我们关注的长非编码RNA以后我们就想知道它有什么功能,就是lncRNA通过调控哪些功能和通路来影响我们肿瘤的发生,在发表文章的时候,这一部分几乎在所有的长非编码RNA发表的相关文章里面都会出现。
而我们预测长非编码RNA的功能的话,我们一般使用共表达的方法,这也是很多文章用到的方法,共表达它是什么样的概念呢?也就说,一个基因A和基因B,如果在所有的样品里面,它们的波动的趋势是一致的,那我们就说这两个基因之间具有一个共表达的关系,比如说在1号样品里面AB两个基因都是高表达,在2号样品里面两个基因都是低表达,然后在所有样品里面他们都具有这种趋势,那我们就可以说它们是一个共表达的关系。

我们发现很多文章都会用到共表达的方法去预测长非编码RNA的一个靶基因,预测了靶基因之后,我们就可以做靶基因的GO和KEGG的分析,通过靶基因的GO和KEGG的分析,去预测我们的长非编码RNA起着什么样的作用。

上图是相关文件描述,绿色部分的话全部是蛋白编码的基因,我们去预测靶基因的时候我们都是预测跟我们的长非编码RNA相关的MRNA,筛选的条件一般是皮尔森的相关系数,大于0.4或者大于0.5,然后P值小于0.01。我们可以看到大于0.4的话文章比较多,因为TCGA的样品量比较大,所以它一般是大于0.4就比较显著了。
 
然后接下来我们看一下共表达会得到什么样的结果

如图gene1就是我们的长非编码RNA,gene2就是长非编码RNA通过共表达的方法找到的靶基因。然后后面是个呢的类型,当然我们找到的都是蛋白编码的RNA。然后就是相关系数,相关系数的话,我们一般选择就是cor大于0.4或者小于-0.4,最后就是P值,P值的话我们是使用0.01进行过滤。
 
当然在我们共表达得到的这个表格以后我们还可以对表格里面的基因进行绘制图形,比如说这两个散点图

它的横坐标是我们的长非编码RNA的名字,它的纵坐标就是我们找到的靶基因的名字。通过图形,我们可以看到左边这个图是正相关的关系,右边这个图的话是负相关的关系。
 
接下来我们来实现共表达,我们要准备的输入文件是normalizeExp.txt,里面是每个基因在所有样品里面的表达量,然后就是脚本文件。


运行脚本,我们会得到一个共表达的结果文件,还有一个文件夹,文件夹中是所有基因的散点图。



课程链接:
TCGA数据库批量挖掘lncRNA视频

相关课程:
长非编码RNA芯片数据挖掘视频



(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码