代谢组学数据分析的统计学方法综述

转自:https://mp.weixin.qq.com/s/XThAKeSBriHbeYKlU96pmA算法

代谢组学研究产生大量的数据,这些数据具备高维、小样本、高噪声等复杂特征。如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的热点和难点。据此,本文针对目前代谢组学数据分析中的经常使用统计学方法及其研究进展进行介绍。网络

 

代谢组学数据的特色数据结构

代谢组学是系统生物学领域中继基因组学和蛋白质组学以后新近发展起来的一门学科,它经过检测生物体在受到外源刺激或基因修饰后其体内代谢物质的变化来探索整个生物体的代谢机制并发

其研究对象为生物体内全部内源性小分子代谢物(分子量<1000Da) 。函数

研究手段为高通量检测技术和数据处理方法,最终目标是数据建模和生物标志物的筛选。学习

生物样品如血浆、尿液、组织等,通过GC/MS、NMR、LC/MS 等高通量仪器检测后,获得大量的图谱数据,使用XCM等软件对这些图谱数据进行转换,得到用于统计分析的标准格式的数据。测试

概括起来,代谢组学数据具备如下特色:优化

  • 高噪声:生物体内含有大量维持自身正常功能的内源性小分子,具备特定研究意义的生物标志物只是其中不多一部分,绝大部分代谢物和研究目的无关。编码

  • 高维、小样本:代谢物的数目远大于样品个数,不适合使用传统的统计学方法进行分析,多变量分析容易出现过拟合和维数灾难问题。orm

  • 高变异性:一是不一样代谢物质的理化性质差别巨大,其浓度含量动态范围宽达7~9个数量级,二是生物个体间存在各类来源的变异,如年龄、性别均可能影响代谢产物的变化,三是仪器测量受各类因素影响,容易出现随机测量偏差和系统偏差,这使得识别有重要做用的生物标志物可能极其困难。

  • 相互做用关系复杂:各类代谢物质可能不只具备简单的相加效应,并且可能具备交互做用,从而增长了识别这些具备复杂关系的生物标志物的难度。

  • 相关性和冗余性:各类代谢物并不是独立存在,而是相互之间具备不一样程度的相关性,同时因为碎片、加合物和同位素的存在使得数据结构存在很大的冗余性,这就须要采用合理的统计分析策略来揭示隐藏其中的复杂数据关系。

  • 分布的不规则和稀疏性: 代谢组学数据分布不规则,并且数据具备稀疏性(即有不少值为零) ,所以,传统的一些线性和参数分析方法此时可能失效。

 

数据的预处理

代谢组学数据分析的目的是但愿从中挖掘出生物相关信息,然而,代谢组学数据的变异来源不少,不只包括生物变异,还包括环境影响和操做性偏差等方面。

处理手段主要包括归一化(standardization) 、标准化(normalization) ,即中心化(centering) 和尺度化(scaling),以及数据转换(transformation)。

归一化是针对样品的操做,因为生物个体间较大的代谢物浓度差别或样品采集过程当中的差别(如取不一样时间的尿样) ,为了消除或减轻这种不均一性,通常使用代谢物的相对浓度,即每一个代谢物除以样品的总浓度,以此来校订个体差别或其余因素对代谢物绝对浓度的影响。

标准化是对不一样样品代谢物的操做,即统计学意义上的变量标准化。标准化的目的是消除不一样代谢物浓度数量级的差异,但同时也可能会过度夸大低浓度组分的重要性,即低浓度代谢物的变异系数可能更大。

数据转换是指对数据进行非线性变换,如log转换和power转换等。数据转换的目的是将一些偏态分布的数据转换成对称分布的数据,并消除异方差性的影响,以知足一些线性分析技术的要求。不一样的预处理方法会对统计分析结果产生不一样的影响(见表1) ,在实际应用中,咱们应该根据具体的研究目的﹑数据类型以及要选用的统计分析方法综合考虑,选择适当的预处理方式。例如,Robert A. van den Berg等(2006) 经过实际代谢组学数据的分析发现,选用不一样预处理方法在很大程度上影响着主成分分析(PCA) 的结果,自动尺度化(auto scaling)和全距尺度化(range scaling) 在对代谢组学数据进行探索性分析时表现更优,其PCA 分析后的结果在生物学上可以获得更合理的解释。

 

单变量分析方法

单变量分析方法简便﹑直观和容易理解,在代谢组学研究中一般用来快速考察各个代谢物在不一样类别之间的差别。

代谢组学数据在通常状况下难以知足参数检验的条件,使用较多的是非参数检验的方法,如Wilcoxon 秩和检验或Kruskal-Wallis 检验,t’检验也是一种比较好的统计检验方法。

因为代谢组学数据具备高维的特色,因此在进行单变量分析时,会面临多重假设检验的问题。若是咱们不对每次假设检验的检验水准α进行校订,则整体犯一类错误的几率会明显增长。

一种解决方法是采用Bonferion校订,即用原检验水准除以假设检验的次数m做为每次假设检验新的检验水准(α/m) 。因为Bonferion校订的方法过于保守,会明显下降检验效能,因此在实际中更为流行的一种作法是使用阳性发现错误率(false discovery rate,FDR) 。

这种方法可用于估计多重假设检验的阳性结果中,可能包含多少假阳性结果。FDR 方法不只可以将假阳性的比例控制在规定的范围内,并且较之传统的方法在检验效能上也获得显著的提升。

实际中也可使用局部FDR(用fdr表示) ,其定义为某一次检验差别显著时,其结果为假阳性的几率。局部FDR 的使用,使得咱们可以估计出任意变量为假阳性的几率,一般状况下有FDR≤fdr。

除了进行传统的单变量假设检验分析,代谢组学分析中一般也计算代谢物浓度在两组间的改变倍数值(fold change) ,如计算某个代谢物浓度在两组中的均值之比,判断该代谢物在两组之间的高低表达。计算ROC 曲线下面积(AUC) 也是一种常用的方法。

 

多变量分析

代谢组学产生的是高维的数据,单变量分析不能揭示变量间复杂的相互做用关系,所以多变量统计分析在代谢组学数据分析中具备重要的做用。

整体来讲,代谢组学数据多变量统计分析方法大体能够分为两类:

  • 一类为非监督的学习方法,即在不给定样本标签的状况下对训练样本进行学习,如PCA、非线性映射(NLM) 等;

  • 另外一类为有监督的学习方法,即在给定样本标签的状况下对训练样本进行学习,如偏最小二乘判别分析(PLS-DA) 、基于正交信号校订的偏最小二乘判别分析(OPLS-DA) 、人工神经网络(ANN) 、支持向量机(SVM) 等。其中,PCA、PLS-DA和OPLS-DA是目前代谢组学领域中使用最为广泛的多变量统计分析方法。

 

PCA

PCA是从原始变量之间的相互关系入手,根据变异最大化的原则将其线性变换到几个独立的综合指标上(即主成分) ,取2~3个主成分做图,直观地描述不一样组别之间的代谢模式差异和聚类结果,并经过载荷图寻找对组间分类有贡献的原始变量做为生物标志物。一般状况下,因为代谢组学数据具备高维、小样本的特性,同时有噪声变量的干扰,PCA的分类结果每每不够理想。

尽管如此,PCA做为代谢组学数据的预分析和质量控制步骤,一般用于观察是否具备组间分类趋势和数据离群点。在组间分类趋势明显时,说明其中必定有可以分类的标志物。

PCA还能够用于分析质控样品是否汇集在一块儿,若是很分散或具备必定的变化趋势,则说明检测质量存在必定的问题。Zhang Zhiyu 等(2010) 经过PCA 成功区分了骨肉瘤患者和正常人,并发现良性骨肿瘤患者中有两例是异常值。Kishore K. Pasikanti 等(2009) 利用PCA 对尿液膀胱癌代谢组学数据进行分析后观察到质控样品在PCA得分图上紧密汇集,从而验证了仪器检测的稳定性和代谢组学数据的可靠性。

PLS-DA

PLS-DA 是目前代谢组学数据分析中最常使用的一种分类方法,它在降维的同时结合了回归模型,并利用必定的判别阈值对回归结果进行判别分析。ZhangTao 等(2013) 运用PLS-DA技术分析尿液卵巢癌代谢组学数据,成功将卵巢癌患者和良性卵巢肿瘤患者以及子宫肌瘤患者相互鉴别,并鉴定出组氨酸、色氨酸、核苷酸等多种具备判别能力的卵巢癌生物标志物。

PLS的思想是,经过最大化自变量数据和应变量数据集之间的协方差来构建正交得分向量(潜变量或主成分) ,从而拟合自变量数据和应变量数据之间的线性关系。

PLS的降维方法与PCA 的不一样之处在于PLS 既分解自变量矩阵也分解应变量矩阵,并在分解时利用其协方差信息,从而使降维效果较PCA 可以更高效地提取组间变异信息

当因变量Y为二分类状况下,一般一类编码为1,另外一类编码为0或-1;当因变量Y为多分类时,则需将其化为哑变量。一般,评价PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标,这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中,R2X 和R2Y 分别表示PLSDA分类模型所可以解释X 和Y 矩阵信息的百分比,Q2Y 则为经过交叉验证计算得出,用以评价PLS-DA模型的预测能力,Q2Y 越大表明模型预测效果较好。

实际中,PLS-DA 得分图经常使用来直观地展现模型的分类效果,图中两组样品分离程度越大,说明分类效果越显著。代谢组学数据分析中另外一种经常使用的方法是OPLS-DA,它是PLS-DA 的扩展,即首先使用正交信号校订技术,将X 矩阵信息分解成与Y 相关和不相关的两类信息,而后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分。Johan Trygg 等认为该方法能够在不下降模型预测能力的前提下,有效减小模型的复杂性和加强模型的解释能力。

与PLSDA模型相同,能够用R2X、R2Y、Q2Y 和OPLS-DA 得分图来评价模型的分类效果。Carolyn M. Slupsky 等(2010) 使用OPLS-DA 发现卵巢癌患者、乳腺癌患者、正常人这三者之间的尿液代谢轮廓显著不一样,从而推断尿液代谢组学可能为癌症的特异性诊断提供重要依据。

 

因为代谢组学数据具备高维小样本的特性,使用有监督学习方法进行分析时很容易产生过拟合的现象

为此,须要使用置换检验考察PLS-DA 在无差别状况下的建模效果。该方法在固定X 矩阵的前提下,随机置换Y分类标签n次,每次随机置换后创建新的PLS-DA 模型,并计算相应的R2Y 和Q2Y; 而后,与真实标签模型获得的结果进行比较,用图形直观表达是否有过拟合现象。

因为样本量的不足,一般采用上述的交叉验证和置换检验方法做为模型验证方法。而实际中,在样本量容许的状况下,最为有效的模型验证方法即将整个数据集严格按照时间顺序划分为内部训练数据和外部测试数据两部分,利用内部训练数据创建模型,再对外部测试数据进行预测,客观地评价模型的有效性和适用性

 

生物标志物的筛选

代谢组学分析的最终目标是但愿从中筛选出潜在的生物相关标志物,从而探索其中的生物代谢机制,所以须要借助必定的特征筛选方法进行变量筛选。

对于高维代谢组学数据的特征筛选,研究的目的是从中找出对样本分类能力最强或较强的一个或若干个变量。特征筛选方法主要分为三类: 过滤法封装法和嵌入法

  • 过滤法主要是采用单变量筛选方法对变量进行筛选,优势是简单而快捷,可以快速的降维,如t’检验、Wilcoxon秩和检验、SAM等方法。

  • 封装法是一种多变量特征筛选策略,一般是以判别模型分类准确性做为优化函数的前向选择、后向选择和浮动搜索特征变量的算法,它一般是按照“节省原则”进行特征筛选,最终模型可能仅保留其中不多部分的重要变量,如遗传算法等。

  • 嵌入法的基本思想是将变量选择与分类模型的创建融合在一块儿,变量的重要性评价依靠特定分类模型的算法实现,在创建模型的同时,能够给出各变量重要性的得分值,如PLS-DA方法的VIP统计量等。

为了更加客观、全面地评价每一个变量的重要性,代谢组学研究中通常采起将上述方法结合起来的方式进行变量筛选。比较常见的一种策略是先进行单变量分析,再结合多变量模型中变量重要性评分做为筛选标准,如挑选fdr≤0.05 和VIP>1.5的变量做为潜在生物标志物。

用筛选的潜在生物标志物对外部测试数据集进行预测,评价其预测效果。最后,能够经过研究生物标志物的生物学功能和代谢通路,分析不一样生物标志物之间的相互做用和关系,从而为探索生物代谢机制提供重要线索和信息。

Yang Jinglei 等(2013) 即在代谢组学分析中使用fdr≤0.2和VIP>1.5的双重标准来筛选精神分裂症的特异生物标志物,所筛选出的差别代谢物其AUC 在训练数据中达94. 5%,外部测试数据中达0. 895。