Lasso回归生信应用可变剪切Lasso回归模型-生信自学网

Lasso回归生信应用可变剪切Lasso回归模型

时间:2020-02-23 来源:生信自学网作者:乐伟
微信公众号:biowolf_cn 点击:次

Lasso回归
Lasso(Least absolute shrinkage and selection operator)方法是以缩小变量集（降阶）为思想的压缩估计方法。它通过构造一个惩罚函数，可以将变量的系数进行压缩并使某些回归系数变为0，进而达到变量选择的目的。

在《TCGA可变剪切生信挖掘》视频课程中，生信自学网给大家介绍了如何从官网下载和整理转录组数据、临床数据、可变剪切的数据，然后可变剪切数据和临床数据合并，合并之后就做单因素COX分析，单因素COX分析帮我们找到了跟生存相关的可变剪切，接下来我们需要构建模型来预测病人的风险值，在构建模型之前，可以做Lasso回归，目的是为了筛选相关性高的可变剪切，防止过度拟合（过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。）比如两个基因A和B，如果两个基因有共表达关系，那么在构建模型的时候，就可以选择保留A基因删除B基因，Lasso回归就可以解决这个问题。
Lasso回归生信应用，常见的有两个图形，一个是相关系数，基因系数的图形，横坐标是Log Lambda值（惩罚系数，控制Lasso回归的复杂度，Lambda值越大，惩罚力度越大），纵坐标是可变剪切的系数，随着Lambda值的增大，可变剪切系数变为0，最后系数都变为0，当某个可变剪切的系数变为0，那么该可变剪切的PSI值（稳定度指标）不会影响样品的风险值，这样就达到了减少可变剪切的目的。

当然这个减少可变剪切不是一个随意的过程，就要参考另外一个图，横坐标是log(Lambda)，纵坐标代表交叉验证的误差，在实际分析中，我们希望交叉验证的误差最小的位置，在图形中，虚线位置就是交叉验证误差最小的位置，找到这个点，对应的横坐标有log(Lambda)，上边显示了可变剪切的数目，找到最优的log(Lambda)值，就可以在第一张图里面找到对应的可变剪切用于后续分析。

接下来看下如何实现Lasso回归：
软件：R3.6.2
R包：
install.packages("glmnet")
install.packages("survival")
输入文件：就是前面单因素cox回归的结果文件，包括样品名，生存时间，生存状态，可变剪切的PSI值，这里的可变剪切都是跟生存相关的，按照单因素COX的pvalue小于0.05进行过滤了的

函数：
glmnet()
cv.glmnet()
参数：family=”cox”
maxit=1000，代表循环1000次
在分析中，有学员反应说运行多次的结果不同，这个很容易理解，在Lasso回归运行是，在前面我们讲过如果A、B两个可变剪切相关性高，就只会选择其中一个，那么可能这次选A，下次选B，既然是随机循环，当然会有不同的结果。

接下来就是根据最小的Lambda值lambda.min保存相关可变剪切
购买课程：《TCGA可变剪切挖掘视频课程》
精品课程推荐：

《TCGA数据库甲基化分型文章套路》
《GEO数据库miRNA芯片挖掘》
《中药复方网络药理学联合GEO芯片》

(责任编辑：伏泽微信：18520221056)

森莘老师微信二维码

Lasso回归生信应用可变剪切Lasso回归模型

时间:2020-02-23 来源:生信自学网 作者:乐伟 微信公众号:biowolf_cn 点击:次

时间:2020-02-23 来源:生信自学网作者:乐伟
微信公众号:biowolf_cn 点击:次