新闻资讯

NEWS

干货连载 | SIMCA16 OPLS回归分析一点通

分类:公司动态   发布时间 2021-01-15   阅读: 304


在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,它是一种预测性的建模技术。OPLS是一种多因变量对多自变量的回归建模方法,其最大的特点是可以去除自变量X中与分类变量Y无关的数据变异,使分类信息主要集中在一个主成分中,从而模型变得简单和易于解释,其判别效果及主成分得分图的可视化效果更加明显。


OPLS回归分析是功能代谢组学研究的重要工具,建立组学多元变量数据与功能、质量、等级等宏观数据,或时间、浓度等实验条件之间的关联,从而实现筛选重要变量、建立评价标准和考察工艺过程等目的。通过模型质量,反映数据组与目标参数相关程度;通过建立实际值与预测值的散点图,反映回归模型的预测能力;通过VIP值,S-Plot等变量分析工具,从众多变量中筛选出影响比较大的变量,作为后期优化、考察的对象;通过使用SIMCA中的预测功能,对预测集数据及新检测样品的目标值进行预测分析。功能如此强大,是不是迫不及待要练练手呢?!!!

首先我们来学习下在SIMCA16中OPLS回归分析如何操作吧!!!

本案例是为了找到病人的众多临床参数中与关注的临床指标的密切相关指标。该案例共收集了57名病人,在他们入院时对他们进行了测量,与健康有关的参数共计9项,测量的指标如下图所示。

代谢组学

1
数据的导入和预处理

代谢组学
代谢组学

当样本中的缺失值过多时,样本本身就缺乏了统计学意义,并且极有可能成为异常样本点,因此本案例对缺失值大于50%的样本数据进行去除处理。

代谢组学
代谢组学
代谢组学

2
创建模型

通过OPLS得分图和载荷图相结合的方式,对其进行解读可得到更多的信息。两者相结合可以看出哪些样本与Y变量相关性较强,哪些样本相关性较弱。

代谢组学
代谢组学

进行OPLS模型的构建首先需要设置Y变量。

代谢组学

代谢组学


Scale方式选择ctr或par有助于S-plot图形成S形这有利于数据的筛选。


代谢组学
代谢组学

代谢组学

代谢组学


得分散点图和DModx图可考察样本中是否有异常样本点,当样本点距离95%置信区间过远和远远大于红线时可以去除该样本。

代谢组学


载荷图结合其柱形图可直观考察其他X变量和Y变量的相关性程度。


3
模型诊断

代谢组学

代谢组学

关于Y值和预测Y值的回归分析,可考察是否有异常样本点,以及模型的拟合程度。

代谢组学

模型合格的最低标准R2>0.3,Q2>0.5。随着主成分个数增加,会逐渐出现过度拟合的现象。

4
关键参数筛选

对关键X变量进行筛选,主要有三种方式VIP值排序、Loading图 P值以及S-plot图。

代谢组学

代谢组学

代谢组学
代谢组学

好菜还没完。接下来让我们看一看在文献中的常规的具体应用!!!

(1)常规数据分析

宏观数据或实验条件与代谢物数据之间的关联。对于功能、质量、等级等宏观数据或者时间、浓度等实验条件对于代谢物影响这类实验中,我们关注的是在不同自变量参数条件下有着显著变化的代谢物。OPLS-DA适用于两两之间的分析。可能这个时候,研究者不得不寻求其他的解决方案,比如说做ANOVA分析等。然而这些分析方法都是对代谢物进行逐一考察,缺乏整体层面上对代谢物重要性程度的考量,因此不能进一步告诉研究人员这些随自变量变化的代谢物中哪种代谢物更为关键。而OPLS回归分析,不仅适用于多个自变量参数设置这类场景,同时给出了代谢物的权重信息,因此可以筛选出不同自变量参数条件下最为重要的代谢物。

(2)数据挖掘

a.药效:从成分复杂的样本中寻找最关键的生物活性物质、快速解析物质功能;Mandrone Manuela等人[1]将胶原酶抑制活性设为参数Y,各种芳香族化合物设为变量X,通过OPLS回归分析中散点图,VIP值柱状图,寻找到了单宁类化合物是与胶原酶抑制活性最相关的物质。

代谢组学代谢组学

b.质量评价:筛选出影响质量、感官等的关键代谢物,获得评级和优化的线索;Yujing Zhang等人[2]在文章中将抗氧化能力设为参数Y。并将24个样本作为训练集建立了抗氧化能力和代谢物的OPLS回归模型,又将7个样本作为验证集测试,发现回归模型具有较好的对抗氧化能力的预测能力。

代谢组学

代谢组学代谢组学

c.生产:分析不同产量、质量生产过程,明确关键生产条件和优化策略。Katsuaki Nitta等人[3]将丁醇产量设置为变量Y和 大肠杆菌内代谢物设置为变量X,并进行OPLS回归分析,其中乙酰辅酶A的回归系数最大,蛋氨酸的回归系数最小,然后基于这两种代谢物对大肠杆菌丁醇产量进行优化。

代谢组学


d.临床诊断:分析发病过程中趋势性变化的代谢物,获得潜在的诊断标志物或治疗靶点;M. Kuboniwa等人[4]将临床参数PISA设置为变量Y,代谢物数据设置为X变量,并建立OPLS回归模型。通过VIP值和回归系数筛选到8种显著的差异代谢物。然后进一步通过ROC分析,确定5-氧代脯氨酸、组氨酸和尸胺为最优的诊断标志物。


代谢组学代谢组学

代谢组学代谢组学


今天SIMCA16关于OPLS回归分析小技能就分享到这里啦,OPLS回归分析对于功能相关的差异变量的筛选在食品、医疗、药物研发等领域的应用相当广泛,这里就不一一列举了。下期我们将进入分类分析PCA-Class的精彩世界,敬请期待。我们下期再见。


参考文献:
1. Mandrone, Manuela. Medicinal Plants from Ancient Tradition as a Source for Matrix Proteases Inhibitors. Study of Correlation between Biological Activity and Phytochemical Profile. Alma Mater Studiorum Università di Bologna.2016. DOI 10.6092/unibo/amsdottorato/7613.
2. Yujing Z , Chao W , Fangliang Y , et al. UHPLC-ESI-Q-TOF-MS/MS analysis, antioxidant activity combined fingerprints for quality consistency evaluation of compound liquorice tablets[J]. RSC Advances, 2018, 8(49):27661-27673.
3. Nitta K , Lavi A W A , Pontrelli S , et al. Orthogonal partial least squares /projections to latent structures regression-based metabolomics approach for identification of gene targets for improvement of 1-butanol production in Escherichia coli[J]. Journal of Bioscience & Bioengineering, 2017:S 13891 72317303079.
4. Kuboniwa M , Sakanaka A , Hashino E , et al. Prediction of Periodontal Inflammation via Metabolic Profiling of Saliva[J]. Journal of Dental Research, 2016:1381.

如需本文原始数据,请在阿趣代谢微信公众号后台回复:0115+姓名+单位+联系电话+邮箱;

如需试用SIMCA软件,请在阿趣代谢微信公众号后台回复:试用+姓名+单位+联系电话+邮箱。

BIOTREE科技成为Sartorius Stedim Data Analytics AB大中华区SIMCA软件销售及培训服务提供商。如需购买SIMCA软件或培训课程请拨打免费服务热线:400-664-9912。

本文为阿趣代谢微信公众号原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须联系阿趣代谢微信公众号获得授权,并在正文前注明来源阿趣代谢微信公众号。


代谢组学