好久不见,分外想念!机器学习作为一个让人又爱又恨的领域对大家有着不同寻常的吸引力,爱是因为机器学习可以从大量的数据中挖掘其中蕴含的规律,恨是因为其中涉及到各种复杂的原理让人头痛!今天小编就带大家一起阅读一篇2022年9月22日发表在BRIEFINGS IN BIOINFORMATICS(IF:13.994)的机器学习相关文章吧!看看作者是如何使用机器学习算法挖掘预后和免疫治疗相关特征!
为了全面评价免疫细胞相关的lncRNA,从16个数据集(GSE13906,GSE23371,GSE25320,GSE27291,GSE27838,GSE28490,GSE28698,GSE28726,GSE37750,GSE39889,GSE42058,GSE49910,GSE51540,GSE59237,GSE6863,GSE8059)中筛选出由19种免疫细胞类型组成的纯化细胞系(图1)。
在每种免疫细胞中的表达水平排名前15%的LncRNAs有546个,这些LncRNAs被认为是候选的免疫相关LncRNAs。随后,计算候选免疫的LncRNAs的TSI得分,以识别在不同免疫细胞类型中普遍表达的hkLncRNAs(在所有免疫细胞中高表达的LncRNAs)。
TSI得分较低的LncRNAs在所有19种免疫细胞中均高表达,表明它们在免疫中发挥重要作用。在设定TSI<0.2的阈值后,鉴定出308个对调节细胞免疫至关重要的HKLncRNAs。然后,从308个HKLncRNAs中鉴定出152个在免疫细胞系(上调)和GBM细胞系(下调)之间差异表达的HKLncRNAs,并将其视为GBM 的TIICLncRNAs。
signature的计算框架
进一步应用LassoLR、Boruta、XGBoost、SVM、Random Forest和PAMR六种机器学习算法,从152个GBM的TIICLlncRNAs中识别出16个最有价值的TIIClncRNAs(图2A)。采用单因素Cox回归分析,筛选出对GBM患OS有预后价值的TIIClncRNAs。在TCGA GBM数据集中识别出12个TIICLncRNAs。最后,根据TCGA GBM数据集中所有可能的预后TIICLncRNAs组合的估计回归系数进行加权,构建TIICLnc signature。基于高斯混合模型(GMM)进行分类,其中有八个聚类4095个组合(图2B)。在TCGA GBM数据集中最大的1年AUC由三个TIICLNCRNAs构成(图2B)。
即:
TIICLNC signature=(0.5751*LINC00894表达值)+(1.0609*LOC100506585表达值)+(1.0639*LOC100507156表达值)。
在TCGA 、CGGA、GSE108474以及湘雅队列中,高TIILNC特征评分的GBM患者的预后更差(图2C、E、G和H)。TCGA一年生存的AUC为0.727(图2D)。湘雅队列一年生存AUC值为0.705(图2F)。单因素和多因素Cox回归分析证实TIICLNC特征是TCGA GBM数据集中的一个独立危险因素(图2I)。
图2:TIIClnc signature预后价值
为了检验TIICLNCsignatures的预后性能,作者分析了95个signatures,包括lncRNA和mRNA,并比较了TCGA和湘雅数据集的1年AUC。这95个特征与多种生物学特征有关,包括免疫浸润、自噬、铁死亡、焦亡、上皮间质转变、缺氧、表观遗传学、N6-甲基腺苷等。TIICLNC signatures比任何其他signatures拥有更好性能(图3)。
图3:TIICLNC signature与其他模型的比较
高TIICLNC组表现出较高水平的免疫浸润细胞和免疫调节剂,与胶质瘤亚型、IDH突变和O6-甲基鸟嘌呤-DNA甲基转移酶甲基化无关,表明炎症但相对免疫抑制的微环境,是免疫治疗的潜在受益者(图4A和B)。还比较了高分组和低分组之间与免疫反应性更强的微环境相关的MSI、TMB、CYT、GEP、TCR、IFN-γ和IPS的状况。结果发现,在高得分组中,这些特征都处于较高水平(图4C-F)。
由于高分组免疫上调,接下来探究高分组的潜在生物学机制。在TCGA和湘雅数据集上,高分组在抗原释放、癌症抗原呈递、引发和激活、免疫细胞募集和浸润、癌细胞识别和癌细胞杀伤等癌症免疫循环中更为活跃(图5A)。TIIClnc signature与半乳糖代谢和鞘脂代谢等多种代谢通路呈正相关(图5B)。此外,TIIClnc signature与多种免疫通路呈强相关,包括巨噬细胞细胞因子产生、T细胞分化、T细胞活化等(图5B)。
此外,在TCGA和湘雅数据集的免疫图雷达图所示的高评分组中,TME相关特征显著上调(图5C和D)。GSEA富集分析显示,高TIIClnc signature组富集在巨噬细胞活化、DC趋化、IFN-γ产生和T细胞增殖调节(图5E)以及MAPK、NF-kappa B、mTOR和PI3K-Akt信号通路(图5F)。总之,结果显示TIIClnc signature得分高的患者在免疫疗法下免疫应答更强。
图5:湘雅数据集中TIIClnc signature的功能解析
由于TIIClnc
signature对免疫治疗的预测能力,作者接下来验证了多个免疫治疗数据集的效率,包括 IMvigor(尿路上皮癌)、GSE91061(黑色素瘤)、GSE165252(食管腺癌)、GSE35640(黑色素瘤)、GSE103668(三阴性乳腺癌)、GSE78220(黑色素瘤)和 PRJNA482620(GBM)。
如图6A-H 所示,高分组具有更好的免疫治疗反应和更长的生存时间。从 TIDE 和 submap 生成的列联表也有与上述相同的结果(图6I和J)。然而,GBM数据集(PRJNA482620)生存分析显示了相反的结果(图6K)。随后,在湘雅内部数据集中验证了TIIClnc signature的预测价值。如散点图所示,TIIClnc 得分与已知的免疫治疗指标 CD8、PD-1 和 PD-L1 呈显著正相关(图 6L、N和M)。总之,具有高 TIIClnc signature的患者可能会从免疫治疗中获益更多。
图6:TIICLNC signature对免疫治疗反应的预测价值
文章到这里就结束了!不同于以往的文章,这篇文章结合多种机器学习的方法筛选特征,构建免疫相关的预后模型。机器学习作为当下非常火热的方向,是不是也吸引着很多小伙伴?这篇文章就为我们提供了不错的思路!海量的数据,成熟的机器学习算法都已经具备,下一个10+文章说不定就是你的哦!
END
最新思路推荐
细胞死亡 | 铜死亡之后新的热点已经产生 免疫宠儿:T细胞耗竭如何生信 |
液体活检 | 循环肿瘤细胞(CTC)纯生信 外泌体经典生信思路 |
单细胞 | 细胞通讯热点推荐 经典临床耐药性问题 |
m6A专题 | m6A调节因子整合生信分析 m6A胶质瘤为何越发越高 |
临床专题 | 中药与生物信息结合思路 基因编辑如何结合临床? |
还没有评论,来说两句吧...