非靶向代谢组学是一种无偏向的代谢组学分析,能够同时检测大量代谢物信号。代谢组检测结果包含实验样本和质控样本(quality control, QC),为了更好地分析数据,我们需要对检测数据进行一系列的预处理,主要包括偏离值过滤、缺失值过滤、缺失值填补和数据标准化。经过预处理,可以减小奇异数据对数据分析的影响,有利于更准确地筛选和挖掘代谢物。
偏离值,也称异常值,一般指相对误差较大、偏离正常范围的观测值。偏离值的存在可能会导致数据分布和真实分布差别很大,影响数据集的均值和标准差,从而影响统计分析的结果。使用QC样本的相对标准偏差(relative standard deviation, RSD, 即变异系数coefficient of variation, CV)作为衡量标准,认为QC组RSD大于0.3的物质检测不稳定,删除该物质的所有检测数据。
在检测分析过程中,样本可能会由于某些原因造成缺失,比如信号很低检测不到、算法限制等。代谢组学分析通常根据样本或组内缺失值的比例进行数据过滤,例如:保留单组或所有组中空值不超过50%的代谢物。
过滤后的数据仍然会存在缺失值,如果直接忽视,可能会导致后续分析异常,也会影响分析结果的准确性,因此需要对缺失值进行模拟填充。比较简单的方法是用中位数、最小值的二分之一等直接进行填充;复杂一点的可以使用机器学习的算法如K-近邻算法(K-Nearest Neighbors, KNN)、奇异值分解(Singular Value Decomposition, SVD)等。
1. 最小值的二分之一填充
用实验样本检测结果中所有峰面积的最小值的二分之一来填补缺失值。
2. K-近邻算法
KNN算法是一种简单高效的缺失值填补方法,原理是通过计算距离来识别空间相似或相近的k个样本,然后使用这些样本来估计缺失数据点的值,每个样本的缺失值使用数据集中找到的"k"邻域的平均值进行插补。
KNN算法原理的简单示例,来源:《算法图解》
代谢数据有着典型的高维度、高噪声等特性,仪器等因素的影响也会导致检测数据存在系统误差,因此数据标准化是代谢组学分析中不可缺少的一部分。常用的有内标标准化、面积和标准化等方法。
1. 内标标准化
内标标准化通常选择RSD最小的内标(Internal Standard, IS),用样品中代谢物的峰面积()除以该样品中对应的内标物的峰面积()。
2. 面积和标准化
面积和标准化是将样品中所有代谢物的峰面积相加,得到该样品代谢物峰面积的总和(),然后用代谢物的峰面积()除以总和。
以上就是非靶代谢组学分析数据预处理的简单介绍。在实际分析过程中,数据预处理没有完全统一的标准,我们需要结合具体的实验方法、目的进行调试。
-
J Hazard Mater(IF=13.6) | 蛋白质磷酸化:大麦应对纳米塑料与氧化锌纳米粒子的关键调控因子纳米材料作为纳米技术发展的物质基础,已在多个领域得到广泛应用。在农业方面,氧化锌纳米颗粒(ZnO nanoparticles, ZnO NPs)可用作纳米肥料施用,能够增加植物的光合碳同化、水分利用效率和胁迫抗性。2024-03-12
-
Cell揭秘,发现准妈妈补充叶酸的“真相”无论是影视作品中还是日常生活中,我们能经常看到备孕期、怀孕期的准妈妈会主动补充叶酸,但是叶酸是什么呢?为什么准妈妈们要补充叶酸呢?叶酸有什么作用呢?补充的叶酸对于怀孕过程和小宝宝的生长有什么影响呢?2024-03-05
-
国自然热点:黄芪新发现,逆转心肌梗死后重构,改善心功能该研究发现新型小分子黄芪甲苷(Astragaloside IV)衍生物HHQ16通过与长链非编码RNA(long non-coding RNA, lncRNA)-lnc4012/9456特异性结合导致其降解,进而拮抗G3BP2/NF-κB信号通路信号传导2024-02-27
-
项目文章 | 基于靶向代谢组学鉴定肠炎沙门氏菌污染鸡的生物标志代谢物肠炎沙门氏菌(S.enteritidis)是一种严重威胁畜牧业和人类健康的人畜共患病原体,它引起的污染已成为中国乃至世界细菌性食物中毒的主要原因。本研究旨在研究肠炎沙门氏菌在鸡体内的代谢特征,寻找肠炎沙门氏菌在鸡体内的代谢标志物。2024-02-22
-
项目文章(IF=18.9) | 中科院微生所仲乃琴团队在马铃薯疮痂病方向新突破马铃薯作为世界第四大粮食作物,在保障人类粮食供应稳定方面发挥着重要作用。然而,由致病性链霉菌(Streptomyces)引起的马铃薯普通疮痂病(common scab, CS)在全球范围内均有发生,且危害逐年增加。2024-01-25
-
干货分享 | 5min带你认识简单好用的通路数据库——ReactomeReactome数据库交叉引用了100多个不同的在线生物信息学资源,包括NCBI、Ensembl和UniProt数据库、UCSC基因组浏览器、ChEBI小分子数据库和PubMed文献数据库等。2023-08-23
-
科研加速宝典 | 跟着CNS学习肠菌研究策略“肠道菌群与人体健康关系的研究”被列入 Science 杂志报道的十大科学进展,对肠道菌群的研究早已成为科学热点之一。2023-08-23