代谢组学精华汇总

时间 2020-08-26 标签代谢汇总

代谢组学的介绍html

代谢组学那些事儿算法

代谢组数据处理网络

代谢组学数据分析的统计学方法综述机器学习

典型机器学习算法在代谢组学数据分析中的应用和比较工具

运用ROC曲线筛选生物标志物的策略blog

关于筛选标记物

筛选差别代谢产物一般基于OPLS-DA模型，由于它更易于进行模型解释，全部跟分组相关的信息都集中于第一维。筛选的标准一般是基于如下两个指标：

Corr.Coeffs./p(corr) （Correlation Coefficient），是样本得分值t和变量X间的相关系数-Corr(t, X)，表明了变量的可靠度。该值没有固定阈值，一般设定对应的P值 < 0.05。
VIP （Variable importance in the projection），为变量对模型的重要性，描述了每个变量对模型的整体贡献，一般设定阈值为VIP >1。

除此以外，基于单维检验的P值和变化倍数（Fold change）所做的火山图（Volcano plot）也是经常使用的筛选方法。

关于标记物的筛选

代谢组学活性筛选（metabolomics activity screen, MAS）

PLS-DA和OPLS-DA

能够根据V-plot筛选代谢物（本质是综合VIP和P值 [所谓的Corr.Coeffs的P值]？），OPLS-DA的分析中还能够用S-plot筛选代谢物（横坐标是P，纵坐标是P(corr)，不太理解）。这两个图绕晕了，有很多资料，好比有个文章（Analysing NMR Metabolomics data using OPLS-DA ）就示范了OPLS-DA及其S-plot。关于这两个图的文章，主要是：代谢组学数据处理中提到。

模型评估指标：(R2X, R2Y, Q2, R2, Q2)

一般，评价(O)PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y这三个指标，这些指标越接近1 表示PLS-DA 模型拟合数据效果越好。其中，R2X 和R2Y 分别表示PLSDA分类模型所可以解释X 和Y 矩阵信息的百分比，Q2Y 则为经过交叉验证计算得出，用以评价PLS-DA模型的预测能力，Q2Y 越大表明模型预测效果较好。

PCA分析中R2X >0.4为好；PLS-DA 和 OPLS-DA分析中，R2X 这个参数不重要了，主要是R2Y 和Q2，这两个值>0.5 为好，越接近1越好。OPLS-DA中Q2(cum)，是指建模后模型的预测能力，以大于0.5为宜，越接近1越好，cum 表示累积的意思。另一个Q2 是进行模型验证，以防止随机拟合或过拟合的一个评价参数。

另外，在介绍ropls这个包的网站上，对于实现PLS-DA、OPLS-DA有代码的讲解，连接为：ropls: PCA, PLS(-DA) and OPLS(-DA) for multivariate analysis and feature selection of omics data

值得参考的其余文章

什么是（O）PLS-DA？什么是VIP？

（O）PLS-DA&VIP分析

OPLS vs PCA: Explaining differences or grouping data?

代谢组学工具

SIMCA、MetaboAnalyst（Mummichog）、PIUMet、Cytoscape、Heml（作热图的）、Proteowizard（格式转换工具）等。

SIMCA操做能够借鉴下这个：SIMCA14.1 Omics Skin操做教程--药物疗法（核磁共振氢谱）。

代谢组学其余东西

在代谢组学文章投稿时，都须要列出已鉴定化合物的检测分子量的偏差，这个一般须要本身计算，计算方法如上述例子。这里介绍一个计算精确分子量的网。

——摘自：代谢组学分享平台—质谱知识2.

模型创建后须要进行验证，如置换检验、交叉验证。