组学分析 | 机器学习预测胃癌早诊代谢标志物
发布时间 2024-10-09

基于之前的介绍,我们对机器学习有了初步的认知,那么机器学习在组学文章中是如何应用的呢?接下来我们以今年2月国家癌症中心胰胃外科田艳涛教授团队在nature communications(IF=14.7)发表的胃癌(gastric cancer, GC)早诊和预后标志物文章的方法学为例进行进一步的学习。

组学分析 | 机器学习预测胃癌早诊代谢标志物(图1)

背景介绍

胃癌是世界范围内的高致死率的肿瘤,内镜检查是诊断胃癌的金标准,但该方法有创且昂贵,因此限制了它在临床方面的应用。因此,迫切需要高灵敏度和高特异性且非侵入性的临床诊断方法。此外,目前临床预后预测在很大程度上依赖于外科医生基于各种临床适应症的经验判断(包括肿瘤位置、TNM分期信息和组织病理学),准确性有限;我们也知道胃癌的遗传和环境危险因素都会导致代谢变化,并进一步促进肿瘤的发生和进展。因此,本研究基于多中心GC患者和非GC对照组(non-GC controls,NGC)共702名参与者的血浆样本进行液相色谱-质谱(LC-MS)靶向代谢组学检测,结合机器学习开发了两个重要的生物标志物模型:10-DM模型和28-PM模型,通过验证发现代谢物模型在预测临床结果方面具有更好的性能。

组学分析 | 机器学习预测胃癌早诊代谢标志物(图2)

图1. 文章整体思路

接下来,主要围绕分析方法和大家分享一些比较重要的细节。

1. 样本纳入:首先2022年收集了队列1和队列2的521名参与者,队列3的181名参与者于2017年~2022年收集;其次所有参与者未接受抗癌药物治疗;此外还收集了参与者的性别、年龄、BMI、肿瘤病例和预后状态等基本信息。

2. 数据预处理:3个队列的血浆样本一次上机检测,主要进行过滤和归一化处理:a)首先根据80%规则,保留在组内4/5样本中均有检出值的代谢物,剩余的147个代谢物在样本中有缺失值的用固定值1000进行填充。b)为减少批次效应影响,计算所有批次QC样品中每个代谢物的平均峰面积(QCall),以及最接近给定测试样品的QC样品中每个代谢物的平均峰面积(QCadj),并把对应批次的QCall/QCadj作为该批次中代谢物的归一化因子;然后将每个样品中每个代谢物的峰面积乘以相应的归一化因子。c)为校正样本间生物量的差异,又将每个代谢物的归一化峰面积进行总和归一化(每个代谢物的归一化峰面积除以该样品中所有检测到的代谢物的归一化峰面积之和)。

3. 数据划分:基于数据集1的426个参与者按照2:1分为训练集(也即发现集)和测试集,首先基于训练集构建诊断模型,并用训练集对模型结果进行测试,接着用数据集2的95个样本进行外部验证。此外,本研究还基于数据集3的GC队列数据建立预后模型,其中数据集3的181个GC患者按照2:1分为训练集和测试集。

4. 建模策略:诊断模型主要基于LASSO回归选择10个重要变量(主要基于贡献度),然后基于10个重要代谢物建立随机森林模型;诊断模型除用内外部数据验证外,还用这10个变量在Metaboanalyst网站(https://new.metaboanalyst.ca/ModuleView.xhtml)上构建的线性支持向量机(Support Vector Machine, SVM)、最小二乘判别分析(Partial Least Squares Discriminant Analysis, PLS-DA)、随机森林和逻辑回归模型进行比较。预后模型首先基于随机生存森林(Random survival forest, RSF)模型筛选28个重要变量,然后再用训练集建立训练模型,并基于测试集对模型进行验证,最后还基于多变量Cox分析(Multivariate Cox regression)模型评估包括代谢物在内的各个因素对生存的影响。

5. 性能评估:本研究基于灵敏度和C-index评估代谢物组合与临床指标的诊断效果,基于AUC评估不同机器学习模型的诊断效果。

主要结果

基础统计分析筛选出差异代谢物后,首先基于差异代谢物用LASSO筛选重要代谢物变量,然后构建随机森林诊断模型,发现10-DM模型能很好的区分正常组和GC组。

组学分析 | 机器学习预测胃癌早诊代谢标志物(图3)

图2. 诊断模型

接着,将代谢物模型与临床肿瘤生物标志物CA19-9、CA72-4和CEA构建模型进行比较,发现代谢物模型的灵敏度更高。此外,通过与Metaboanalyst网站的几个机器学习模型的比较发现,10-DM模型表现最好。

组学分析 | 机器学习预测胃癌早诊代谢标志物(图4)

图3. 诊断模型比较

最后,通过建立的预后模型,确定了28-PM模型可准确预测GC患者的预后,且该模型对不同时期GC的预测效果也明显高于临床指标。

组学分析 | 机器学习预测胃癌早诊代谢标志物(图5)

图4. 预后模型

最后,相信大家在读完这篇文章之后,对于机器学习流程及其应用应该会有了更加全面的认知;关于模型更细节的一些参数问题,可以再详细阅读文章方法部分进行了解。

参考文献:

Yangzi Chen, et al. Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer. Nat Commun . 2024 Feb 23;15(1):1657.

微信

在线
咨询

QQ

点击QQ咨询