糖酵解预后模型文章套路简介(glycolysis/临床性状-生信自学网

糖酵解预后模型文章套路简介(glycolysis/临床性状生存分析)

糖酵解与肿瘤关系
正常细胞体内，葡萄糖会维持一个平衡状态，当氧含量正常时，丙酮酸会进入三羧酸循环；在缺氧状态时，葡萄糖会转变丙酮酸进而转变为乳酸。
肿瘤细胞即使在氧含量正常的情况下，葡萄糖摄取量和乳酸的积累量也会逐渐升高，利用糖酵解作为主要能量代谢的来源，获得更高的糖分解能力，使得葡萄糖转变为乳酸来产生ATP。
肿瘤细胞主要通过糖酵解获取能量促进其生长，抑制糖酵解具有抑制增殖和杀伤肿瘤细胞的作用，糖酵解限速酶和低氧诱导因子有望成为治疗肿瘤的新靶点。
肿瘤类型：胃癌
1、TCGA转录组数据下载和整理
从TCGA下载的转录组数据，一个样本是一个文件，首先要用生信自学网专利代码合并转录组数据，合并之后得到行名是ensembl的ID，列名是样本名，接下来要进行ID转换，得到行名是symbol，列名是样本名

2、TCGA临床数据下载和整理
从TCGA下载的临床数据，一个样本是一个XML文件，需要用到生信自学网专利代码提取这些XML文件的临床信息，整理得到临床表格

3、GSEA输入文件准备和GSEA富集分析
表达数据集文件.gct文件，表型数据文件.cls文件，cls文件分组是两组癌旁N和肿瘤T
然后从GSEA官网下载糖酵解相关的基因集下载下来，接下来做糖酵解的GSEA富集分析

4、提取糖酵解基因表达量
根据GSEA富集分析，提取糖酵解基因表达量

5、差异分析过滤
conMean：正常样品表达量均值
treatMean：肿瘤样品表达量均值
logFC：log2(treatMean-conMean)，logFC>0，说明该基因在肿瘤样品是上调的，logFC<0，说明该基因在肿瘤样品是下调的
pValue：该基因在正常组和肿瘤组差异检验的p值，如果p<0.05，说明该基因在正常组和肿瘤组里面是具有差异的

6、基因表达和生存数据合并
得到差异过滤基因，就可以用生信自学网专利代码对差异过滤基因表达和临床数据进行合并，得到有样本名，生存时间，生存状态，基因表达的矩阵

7、预后相关的糖酵解基因
HR：风险值，HR>1，高风险基因，说明该基因的表达越高，病人的风险越高，HR<1，低风险基因，说明该基因的表达越高，病人的风险越低
HR.95L、HR.95H：HR波动范围，HR 95%CI
coxPvalue：该基因跟生存相关性的统计学p值，p<0.05，说明该基因跟生存是相关的

8、糖酵解预后模型
模型：基因1*基因1的coef+基因2*基因2的coef+基因3*基因3的coef+基因4*基因4的coef+基因5*基因5的coef
riskScore：根据模型，以及每个样本5个基因的表达量，可以计算每个样本的riskScore
risk：根据每个riskScore的中位值，把所有样本分为高低风险两组，该样本的riskScore大于中位值，该样本为高风险

9、生存曲线
横坐标：生存时间单位年
纵坐标：生存率
红色曲线高风险组，蓝色曲线低风险组，随着时间推移，病人的生存下降，两条曲线明显分开，p<0.05，说明高低风险组生存是具有差异的

10、ROC曲线
目的：验证模型预测预后的准确性
横坐标：假阳性率
纵坐标：真阳性率
主要看曲线下面积，也就是AUC值，如果AUC值>0.7，说明利用模型用于预测病人的生存准确性是比较高的，如果AUC值>0.9，说明利用模型用于预测病人的生存准确性是非常高的

11、风险曲线
三张图组成，三张图的共同点，横坐标是一个一个的病人，病人根据风险排好序，从左到右，病人的风险是依次增大的
第一张图
纵坐标：风险值
从左到右，曲线是向上的趋势，风险值依次增大
第二张图
纵坐标：生存时间单位年
图例红色正方代表病人死亡，蓝色圆圈代表病人存活
第三张图
纵坐标：模型基因的表达量
如果是高风险基因，随着病人风险增大，基因表达是增大的

12、独立预后分析
单因素独立预后分析
多因素独立预后分析
riskScore单基因独立预后分析的p和多因素独立预后分析的p都小于0.05，说明构建的模型可以独立于其他临床性状，作为独立的预后因子

13、模型基因突变情况
纵坐标：模型基因模型基因在所有肿瘤样品的突变频率
横坐标：所有肿瘤样品
灰色代表没有突变，不同颜色代表不同突变类型
每个基因单独的图形：
不同颜色代表不同结构域

14、模型基因差异分析
横坐标：正常和肿瘤两种状态
纵坐标：基因表达
红色代表正常样品，蓝色代表肿瘤样品，显著性用*表示，*代表p<0.05，**代表p<0.01，***代表p<0.001

15、临床特征的生存分析
横坐标：生存时间
纵坐标：生存率
随着时间推移，病人的生存率下降，根据临床性状把样本分两组，比如按照年龄是否大于65岁分为两组，红色曲线代表年龄大于65，蓝色代表年龄小于等于65，p<0.05代表根据年龄分组跟生存是有差异的

16、临床分组的模型验证
方法：临床分组的模型验证
目的：观察构建的模型在不同人群里面是否适用
横坐标：生存时间
纵坐标：生存率
比如提取早期病人StageI-II，把早期病人分为高低风险两组，绘制生存曲线，p<0.05，说明模型在早期病人是适用的
StageIII-IV晚期病人提取出来，把晚期病人分为高低风险两组，绘制生存曲线，p<0.05，说明模型在晚期病人是适用的