发表时间:(2019年4月)算法
IF:3.95数据库
单位:ide
对象:质谱无标记定量结果搜索引擎
技术:聚类分析设计
1、 概述:(用精炼的语言描述文章的总体思路及结果)orm
本文选择四个不一样的数据集,分为基于谱图数计数和基于峰值强度计数的无标记定量两种状况,对谱图进行聚类算法分析,提升了低丰度蛋白的可检测性,并开发了可直接使用的聚类方法的PD节点。对象
2、 研究背景:blog
无标记量化已成为许多基于质谱的蛋白质组学实验中的常见作法。近年来,聚类方法能够改善蛋白质组学数据集的分析的结论已普遍被人们所接受。本文旨在利用光谱聚类推断额外的肽谱匹配,并提升数据集中的无标记定量蛋白质组学数据的质量,改善低丰度蛋白的定量结果,同时提升了衍生定量数据的准确性,且没有增长数据集的噪声。索引
3、 实验设计:开发
图 1:基于谱图计数和基于强度计数两种方法对LFQ进行聚类以获得额外PSMs的工做流程。
名词解释:
LFQ:Label-Free Quantification,无标记定量;
MGF:Mascot genetic format,一种文件格式;
PSMs:peptide spectrum matches,匹配到的肽段谱图;
MSGF+/X!tandem:经常使用的搜库软件;
MS-Amanda:PD中经常使用的搜索算法;
apQuant:经过质量过滤使LFQ的结果更准确。
4、研究成果:
一、以在酵母蛋白环境下加入不一样浓度的作了标记的UPS1蛋白的样品进行常规蛋白分析获得ms谱图,这些UPS1蛋白即为所用样品中的用来检测结果的低丰度蛋白,而后在搜库时选择是否使用聚类方法并将检测到的标记低丰度蛋白量进行比对,结果如图2。能够看出在低浓度状况下使用聚类方法检测到的低丰度蛋白量提高更明显。
图 2:横坐标为加入的不一样摩尔数的标记UPS1蛋白,纵坐标为检测到的标记UPS1蛋白量,并根据是否使用聚类算法将结果表示为橙绿两种颜色。其中:(A)基于谱图数计数,分别使用MSGF+与X!Tandem搜索引擎;(B)基于峰强计数,并分为是否使用MBR(match-between-runs,边运行边匹配)两种状况。
二、将结果蛋白中有标记的视为真阳性,属于背景蛋白的视为假阳性,经过改变判断结果蛋白是否达标的阈值,绘制出聚类方法在不一样状况下与常规方法效果的比对图,曲线面积越大说明越能在更低的假阳性率下得到更高的真阳性率。从图中咱们能够看出聚类方法在大部分状况下都对结果有所改善。
图 3:分别使用limma对(A,B)和edgeR对(C)作出统计分析,横坐标为假阳性率,纵坐标为真阳性率,线的颜色表明是否使用聚类方法,虚实表明是否使用MBR(A,B)或所用搜索引擎种类(C)。 其中:(A)基于峰强计数,使用三个CPTAC数据集获得的结果。 (B)基于峰强计数,三种浓度比得出结果。(C)基于谱图数计数,三种浓度比得出结果。
文章亮点:
本文最大的亮点在于将其开发的光谱聚类算法整合到了普遍使用的PD软件套件中,使其更容易被更普遍的蛋白质组学界所用。能直接使用的PD节点可在http://ms.imp.ac.at/?goto=spectra-cluster 下载。此外,聚类方法不依赖数据库,但能够直接使用库里的谱图,这使其有着更高的灵敏度。