非靶向代谢组学数据分析方法总结

时间 2021-01-01

生物信息学早已不再局限于基因组学领域了，后基因组学越来越受到关注，并且这几年“多组学”的也研究越来越多。其中，代谢组学是相对比较年轻的一门学科，“代谢组”（metabolome）的概念于1998第一次被提出。基因组学和转录组学是生物信息的上游，更多的体现的是生物活动的内在本质因素，而代谢组学是生物信息的最下游，体现的是生物活动的表型结果。代谢组学分为靶向代谢组学和非靶向代谢组学，本文将结合本人的经验和所学，综述非靶向代谢组学的数据分析方法。

本文可结合另一篇博客（代谢组学数据分析的统计学方法综述）一起阅读，以便加深理解。

概述

什么是“代谢组学”（metabolomics）呢？

首先，我们得明确什么叫“代谢物”（metabolite）。维基百科的定义：A metabolite is the intermediate end product of metabolism. The term metabolite is usually restricted to small molecules. 百度百科的定义：代谢物亦称中间代谢物，是指通过代谢过程产生或消耗的物质，生物大分子不包括在内。

目前METLIN数据库中的标准代谢物分子总共超过200,000 种；一般非靶向代谢组学使用质谱仪能检测到人体血液中的代谢信号峰大约接近10,000个。由此可知，代谢组学的特征维度是比较大的。

其次，我们了解下什么叫“代谢组”（metabolome）。维基百科的定义：The metabolome refers to the complete set of small-molecule chemicals found within a biological sample. The biological sample can be a cell, a cellular organelle, an organ, a tissue, a tissue extract, a biofluid or an entire organism. 百度百科的定义：代谢组是指生物体内源性代谢物质的动态整体。而传统的代谢概念既包括生物合成，也包括生物分解，因此理论上代谢物应包括核酸、蛋白质、脂类生物大分子以及其他小分子代谢物质。但为了有别于基因组、转录组和蛋白质组，代谢组目前只涉及相对分子质量约小于1000的小分子代谢物质。

那么“代谢组学”（metabolomics）怎么定义呢？维基百科上说：Metabonomics is defined as "the quantitative measurement of the dynamic multiparametric metabolic response of living systems to pathophysiological stimuli or genetic modification". 百度百科的解释是：代谢组学是效仿基因组学和蛋白质组学的研究思想，对生物体内所有代谢物进行定量分析，并寻找代谢物与生理病理变化的相对关系的研究方式，是系统生物学的组成部分。注意，代谢组学还有个英文写法是“metabonomics”，这两个写法都是可以的，但其实这两个词的侧重点有些区别，此处不深究，感兴趣的童鞋可以自行查找资料了解。

代谢组学从研究特点上可分为非靶向代谢组学和靶向代谢组学。非靶向代谢组学无偏向地检测样本中所有能检测到的代谢物分子，是通过生信方法进行差异分析和通路分析，寻找生物标志物，初步建立模型或代谢物Panel的组学方法。而靶向代谢则是针对特定的代谢物进行检测，由于其使用标准品，因此可以实现代谢物的绝对定量（非靶向代谢组学只能相对定量）。

用于代谢组学研究的样本，主要包括：组织、血液、尿液等，其他如生物体液、分泌物或排泄物也常用于代谢组学研究。

数据采集的方法上来看，主要分为：核磁共振（NMR）、气质联用（GC-MS）及液质联用（LC-MS）。NMR的灵敏度最低，LC-MS的灵敏度最高（可以检测到更多的代谢物）。采集的数据经过处理，可转化成各个代谢信号峰的相对含量值表（常使用XCMS等工具进行处理）。

总的来说，完整的代谢组学研究，应包括实验设计、样本处理、数据采集、数据分析这几个部分，本文仅介绍非靶向代谢组学的数据分析部分（注：本人接触的是血标本的LC-MS数据）。

数据预处理

采集的数据经过处理，可转化成各个信号峰的相对含量值表，这个表一般形式为：每一行代表一个信号（可由RT[保留时间]和m/z[质荷比]确定一个信号峰）在各个样本中的相对含量，也就是说，每一列代表每个样本中各个信号的性对含量（前几列除外，表示各信号的RT、m/z等信息）。每个信号可用RT值和m/z值组合进行命名。

对于得到的这个表，我们常常进行如下3个预处理操作：信号峰注释、标准化校正、质控。

信号峰的注释。可以对同位素峰、加合物峰进行注释，甚至可以初步鉴定部分信号峰所对应的代谢物名称。

标准化校正。可分为批次内校正和批次间校正。需要校正是因为仪器不稳定等情况，可能使信号峰的相对含量出现误差。校正的方法有几种，目前一般首选基于QC样本的标准化方法，即：将所要采集的所有样本取等量混合起来，组成QC样本，然后在采集数据的时候，每隔一定数量的样品，插放一份QC样本。因为QC样本都是一样的，因此可以用QC样本来反映数据采集过程中信号的偏移规律。校正的工具，目前主要推荐中科院ZhuLab开源的MetNormalizer（朱正江研究员的博士生申小涛师兄开发）。

质控。对每个信号峰的QC样本求RSD（相对标准偏差），通常需舍弃RSD超过30%的信号峰（数据质量太差）。

统计分析

单变量分析

二分类问题的单变量分析主要分为：Wilcoxon秩和检验（或 t检验）和 Fold Change分析。多分类问题可能需要ANOVA等方法。常用的可视化方法为 Volcano Plot （火山图），可初步筛选出同时满足Wilcoxon检验统计学差异和Fold Change倍数差异的信号峰。单变量分析很简单，但常常很有效。

值得注意的一点是，单变量统计学检验，其p值的阈值设定，严格来说不应该设定为0.05，需要进行FDR校正（高维数据进行多次假设检验，容易产生大量的假阳性）。但作为初筛，许多研究往往卡得比较松。

多元统计分析

多变量分析之前，需要对变量进行标准化（包括中心化和尺度化），尺度化的方法主要有以下两种。

Auto scaling：自动标度化，也叫UV scaling（univariate scaling，单变量标准化），也就是上一步中心化后除以该变量的标准差，也叫Z-score标准化。

Pareto scaling：柏拉图标准化，一般写成Par标准化，与UV scaling的不同之处就是对标准差开根号。

一般用的较多的是Z-score标准化。

多元统计分析非常重要的一步是降维。提到降维，很多人的反应便是PCA、LASSO、PLS等方法。代谢组学中较多使用PLS（偏最小二乘法），因为信号峰之间的相关性较高，LASSO降维不仅会将意义较小的变量剔除，也会将相关性较高（共线性）的变量中剔除多余的。一般代谢组学需要探索代谢物之间的互作与研究结局变量的关系，因此PLS更受欢迎。当然，根据研究目的的不同（比如单纯为了找显著价值的互相独立的biomarker），也可以使用LASSO等方法降维。而PCA作为无监督的方法，在代谢组学中主要仅用于质控或寻找天然的分组。

PLS作为监督学习的一种方法，不仅对自变量x成分进行了映射处理，还对结局变量y也映射处理。除了PLS，还有其加强算法——OPLS，区分能力略微更强，可视化效果略微更好。

PLS/OPLS的得分图类似于PCA的得分图，但是PLS/OPLS还可对每个变量（特征）求一个VIP值（Variable Importance in Projection），反应的是每个变量对模型解释的贡献度，VIP越大的变量越重要。VIP值其实是可以可视化的，即使用S-Plot。S-Plot中的各个点都分布在第一和第三象限，由于其形状类似于S，故名S-Plot。S-Plot中各个点代表的是各个信号，越靠近右上角或左下角的点，其VIP值越大。很多人不懂其原理，可以这么简单理解一下，对于一个存在交互作用的模型，如 y=A1*X1+A2*X2+A3*X3+C1*X1*X2+C2*X1*X3+C3*X2*X3，则S-Plot的横坐标，可以类比 A1、A2等等（各变量单独产生的贡献度），纵坐标可以类比C1、C2等等的一个变换（各变量在交互作用中产生的贡献度）。

此外还有个Corr.Coeffs./p(corr) （Correlation Coefficient），是样本得分值t和变量X间的相关系数-Corr(t, X)，代表了变量的可靠度。该值没有固定阈值，通常设定对应的P值 < 0.05。而据此可以产生另一个可视化方法，V-Plot（本质是综合VIP和P值 [所谓的Corr.Coeffs的P值]）。

评价(O)PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标，这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中，R2X 和R2Y 分别表示PLSDA分类模型所能够解释X 和Y 矩阵信息的百分比，Q2Y 则为通过交叉验证计算得出，用以评价PLS-DA模型的预测能力，Q2Y 越大代表模型预测效果较好。

PCA分析中R2X >0.4为好；PLS-DA 和 OPLS-DA分析中，R2X 这个参数不重要了，主要是R2Y 和Q2，这两个值>0.5 为好，越接近1越好。OPLS-DA中Q2(cum)，是指建模后模型的预测能力，以大于0.5为宜，越接近1越好，cum 表示累积的意思。

对于PLS/OPLS，我们常常需进行 permutation test（置换检验）（勿与交叉检验混淆），以确定模型是否过拟合。一般需检验模型的Q2值和R2值（Q2）。对于Q2，要求置换检验结果的在y轴上的截距小于0，方可认为模型没有过拟合。置换检验的基本原理：将真实分类结果（标签）屏蔽，重新随机赋予分类结果（标签），再进行建模。如果真实建模的Q2和随机标签建模的Q2接近，则说明模型过拟合。具体原理请参考其他资料。置换检验可视化的图，横坐标表示的是置换的比例（有多少比例的样本被打乱重新赋予标签）。

进行降维后，除了使用PLS/OPLS多元分析方法可以继续进行多元统计建模外，还可使用SVM、RandomFores、ANN等方法进行建模。另外，最终最好使用Logistic回归建立具备临床（或生物学）解释意义的模型。

另外，瑞典查尔默斯理工大学的施琳大神前不久发表在bioinformatics上的一篇文章，介绍了一个用于多元统计分析的方法，并开发了一个R包MUVR。

网络分析

包括富集分析（Enrichment analysis）和通路分析（Pathway analysis）。通路分析中添加了通路的拓扑分析，输出通路在整体网络中的重要性（impact），重要性越大，可能意味着在整个通路中的地位越核心，那么从impact值也可以反映出来。

致谢

感谢申小涛大神、施琳大神和陈显扬大神等前辈曾给予指点！

参考资料

非靶向代谢组学数据分析总结-纲要

History of Metabolomics

维基百科相应词条

百度百科相应词条

麦特绘谱-代谢组学数据处理

代谢组学精华汇总及该博文的参考资料