非靶向代谢组学是一种无偏向的代谢组学分析,能够同时检测大量代谢物信号。代谢组检测结果包含实验样本和质控样本(quality control, QC),为了更好地分析数据,我们需要对检测数据进行一系列的预处理,主要包括偏离值过滤、缺失值过滤、缺失值填补和数据标准化。经过预处理,可以减小奇异数据对数据分析的影响,有利于更准确地筛选和挖掘代谢物。
偏离值,也称异常值,一般指相对误差较大、偏离正常范围的观测值。偏离值的存在可能会导致数据分布和真实分布差别很大,影响数据集的均值和标准差,从而影响统计分析的结果。使用QC样本的相对标准偏差(relative standard deviation, RSD, 即变异系数coefficient of variation, CV)作为衡量标准,认为QC组RSD大于0.3的物质检测不稳定,删除该物质的所有检测数据。
在检测分析过程中,样本可能会由于某些原因造成缺失,比如信号很低检测不到、算法限制等。代谢组学分析通常根据样本或组内缺失值的比例进行数据过滤,例如:保留单组或所有组中空值不超过50%的代谢物。
过滤后的数据仍然会存在缺失值,如果直接忽视,可能会导致后续分析异常,也会影响分析结果的准确性,因此需要对缺失值进行模拟填充。比较简单的方法是用中位数、最小值的二分之一等直接进行填充;复杂一点的可以使用机器学习的算法如K-近邻算法(K-Nearest Neighbors, KNN)、奇异值分解(Singular Value Decomposition, SVD)等。
1. 最小值的二分之一填充
用实验样本检测结果中所有峰面积的最小值的二分之一来填补缺失值。
2. K-近邻算法
KNN算法是一种简单高效的缺失值填补方法,原理是通过计算距离来识别空间相似或相近的k个样本,然后使用这些样本来估计缺失数据点的值,每个样本的缺失值使用数据集中找到的"k"邻域的平均值进行插补。
KNN算法原理的简单示例,来源:《算法图解》
代谢数据有着典型的高维度、高噪声等特性,仪器等因素的影响也会导致检测数据存在系统误差,因此数据标准化是代谢组学分析中不可缺少的一部分。常用的有内标标准化、面积和标准化等方法。
1. 内标标准化
内标标准化通常选择RSD最小的内标(Internal Standard, IS),用样品中代谢物的峰面积()除以该样品中对应的内标物的峰面积()。
2. 面积和标准化
面积和标准化是将样品中所有代谢物的峰面积相加,得到该样品代谢物峰面积的总和(),然后用代谢物的峰面积()除以总和。
以上就是非靶代谢组学分析数据预处理的简单介绍。在实际分析过程中,数据预处理没有完全统一的标准,我们需要结合具体的实验方法、目的进行调试。