Lasso回归 Lasso(Least absolute shrinkage and selection operator)方法是以缩小变量集(降阶)为思想的压缩估计方法。它通过构造一个惩罚函数,可以将变量的系数进行压缩并使某些回归系数变为0,进而达到变量选择的目的。 在《TCGA可变剪切生信挖掘》视频课程中,生信自学网给大家介绍了如何从官网下载和整理转录组数据、临床数据、可变剪切的数据,然后可变剪切数据和临床数据合并,合并之后就做单因素COX分析,单因素COX分析帮我们找到了跟生存相关的可变剪切,接下来我们需要构建模型来预测病人的风险值,在构建模型之前,可以做Lasso回归,目的是为了筛选相关性高的可变剪切,防止过度拟合(过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。)比如两个基因A和B,如果两个基因有共表达关系,那么在构建模型的时候,就可以选择保留A基因删除B基因,Lasso回归就可以解决这个问题。 Lasso回归生信应用,常见的有两个图形,一个是相关系数,基因系数的图形,横坐标是Log Lambda值(惩罚系数,控制Lasso回归的复杂度,Lambda值越大,惩罚力度越大),纵坐标是可变剪切的系数,随着Lambda值的增大,可变剪切系数变为0,最后系数都变为0,当某个可变剪切的系数变为0,那么该可变剪切的PSI值(稳定度指标)不会影响样品的风险值,这样就达到了减少可变剪切的目的。 当然这个减少可变剪切不是一个随意的过程,就要参考另外一个图,横坐标是log(Lambda),纵坐标代表交叉验证的误差,在实际分析中,我们希望交叉验证的误差最小的位置,在图形中,虚线位置就是交叉验证误差最小的位置,找到这个点,对应的横坐标有log(Lambda),上边显示了可变剪切的数目,找到最优的log(Lambda)值,就可以在第一张图里面找到对应的可变剪切用于后续分析。 接下来看下如何实现Lasso回归: 软件:R3.6.2 R包: install.packages("glmnet") install.packages("survival") 输入文件:就是前面单因素cox回归的结果文件,包括样品名,生存时间,生存状态,可变剪切的PSI值,这里的可变剪切都是跟生存相关的,按照单因素COX的pvalue小于0.05进行过滤了的 函数: glmnet() cv.glmnet() 参数:family=”cox” maxit=1000,代表循环1000次 在分析中,有学员反应说运行多次的结果不同,这个很容易理解,在Lasso回归运行是,在前面我们讲过如果A、B两个可变剪切相关性高,就只会选择其中一个,那么可能这次选A,下次选B,既然是随机循环,当然会有不同的结果。 接下来就是根据最小的Lambda值lambda.min保存相关可变剪切 购买课程:《TCGA可变剪切挖掘视频课程》 精品课程推荐: 《TCGA数据库甲基化分型文章套路》 《GEO数据库miRNA芯片挖掘》 《中药复方网络药理学联合GEO芯片》 责任编辑:伏泽 作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载! |