蛋白质组学数据分析——(1)原理

当前,关于高通量蛋白质组学的研究远不如NGS这般火热,网上关于这方面的知识也寥寥无几,从事这一行也有一段时间了,但还没好好总结过。加之过段时间可能要去作培训,因此是时候把知识点总结一下,权当复习。固然整个蛋白质组学研究也算纷繁复杂,不可能面面俱到,并且不少东西我也在学习当中,确定会出现很多纰漏。毕竟这份笔记主要仍是用于自我查漏补缺,要是在此以外还能帮到须要的朋友,也算善莫大焉了。html

这一篇从原理开始讲起,后续会依次总结蛋白质组学鉴定、定量、注释、翻译后修饰、靶向等基础内容,固然最后也会讲到下游数据分析处理。算法

1、蛋白质组学概述

蛋白质组学是特定系统内蛋白质集合及其相互做用的研究。数据库

蛋白质组研究本质上指的是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰,蛋白与蛋白相互做用等,由此得到蛋白质水平上的关于疾病发生,细胞代谢等过程的总体而全面的认识,这个概念是在1994年Marc Wilkins首次提出的。工具

为何要研究蛋白质组学?性能

我想一句话就够了:蛋白质是生命活动的物质基础,是生命的执行者。学习

用业内通俗的话说解释各个组学的做用就是:基因组解释能发生什么?转录组解释将发生什么?蛋白组解释在发生什么?代谢组解释已发生什么?flex

蛋白质组学是后基因组时代的产物,做为中心法则的下游,其复杂程度远远超过基因组学。基因组的存在是相对稳定的,而细胞和细胞之间的蛋白质组则是随蛋白质和基因以及环境的生物化学反应而变化的。同一辈子物在生物体不一样部位、生命的不一样时期以及不一样的环境中,具备不一样的蛋白质表达。ui

人类基因组测序计划的完成并无给人提供解开生命的密钥,科学家把兴趣转到蛋白质,但愿经过蛋白质组的研究来进一步解开生命的本质。翻译

2、质谱仪结构及原理

先看下面这张图,大体说明了蛋白质组学分析鉴定的流程。简单来讲就是样本制备后分离进入质谱仪中,产出具备质荷比信息的实际谱图,再和数据库产生的理论谱图进行匹配打分,从而推断出蛋白信息。后续将会详解这一部分。3d

蛋白质组分析鉴定流程

从上图咱们可看出高通量蛋白质组学的研究离不开质谱仪,要想理解蛋白质组学数据分析原理,首先就要明白质谱仪的工做原理。

1.质谱仪的发展

质谱仪发展的几个标志性阶段

上世纪初,JJ. Thomson发明第一台质谱仪;
40年代,质谱仪用于同位素测定和无机元素分析;
60年代,开始出现气相色谱-质谱联用仪应用于有机物分析;
80年代,以电喷雾、基质辅助激光解析电离为基础的液相色谱-质谱联用仪应用于蛋白质等生物大分子检测。

2.质谱仪结构

简单来讲,质谱仪就是用来测定气态离子质荷比(m/z)的仪器。首先放个图,直观感觉下质谱仪长啥样。嗯,我以为比测序仪丑,可是价格却不比测序仪便宜。
质谱仪

质谱仪类型可分为无机质谱仪、同位素质谱仪、有机质谱仪、生物质谱仪。后二者用途比较普遍,用于蛋白质组学分析的质谱仪属于生物质谱仪,主要由如下几种结构组成。

1)进样系统
按物质形态,无非气体、固体、液体三种。按进样方式,有气体扩散进样、直接探针进样、色谱进样等。

2)离子源
离子源的做用是将被分析的样品分子电离成带电离子,并使其在光学系统做用下聚成必定形状和能量的离子束,而后进入质量分析器被分离。

离子源可分为硬源和软源,硬源离子化能量高,谱图复杂,可获得分子官能团信息;软源能量低,产生碎片少,谱图简单,可获得分子离子峰。常见硬软电离源如电子轰击电离源(EI)、化学电离源(CI)、场致电离源(FI)、场解析电离源(FD)、快原子轰击电离源(FAB)、大气压化学电离(APCI)、大气压光电离(APPI)、电喷雾电离(ESI)、基质辅助激光解析电离(MALDI)等等。

与GC串联的离子源有电子轰击电离源(EI)和化学电离源(CI),经常使用于代谢组学。与LC串联质谱的离子源有电喷雾离子化(ESI)、基质辅助激光解析电离(MALDI)大气压光电离(APPI)等,经常使用于蛋白质组学,也正是ESI和MALDI的发明得到了诺贝尔奖。

ESI采用强静电场(3-5KV),造成高度荷电雾状小液滴,通过反复的溶剂挥发-液滴裂分后,产生单个多电荷离子,电离过程当中,产生多重质子化离子,主要用于LC-MS联用仪。

MALDI可以使热敏感或不挥发的化合物由固相直接获得离子。波长为1250-775的真空紫外光辐射产生光致电离和解吸做用,得到分子离子和有结构信息的碎片,适于结构复杂、不易气化的大分子,并引入辅助基质减小过度碎裂。通常采用固体基质,基质样品比为10000/1。根据分析目的不一样使用不一样的基质和波长。
ESIMALDI

3)质量分析器
质量分析器是质谱仪的核心,将带电离子根据其质荷比加以分离,以便用于纪录各类离子的质荷比和丰度信息。一般不一样类型的质量分析器组合会构成不一样功能的质谱仪,这就是所谓的串联质谱。

目前最经常使用的质量分析器有:A.四级杆(Quadrupole);B. 飞行时间(time-of-flight,TOF);C. 离子阱(ion trap);D. 静电场轨道阱(Orbitrap)。
4种常见的质量分析器

飞行时间质谱 (TOF),分析物的质荷比是根据分析物在真空飞行管中的飞行时间推算出的。飞行时间质谱的质量分析器由调制区、加速区、无场飞行空间和检测器等部分组成。经过离子源获得离子之后,离子通过一个加速的区域,全部的离子都会得到一个相同的初始动能,而后它们进入一个没有电场的区域,不一样质量的离子具备不一样的能量,重的离子飞行速度会慢一些,轻的离子飞得快一些,最终离子都会经过整个飞行区域,到达检测器。飞行时间是与质荷比的平方根成正比的,经过无场区的飞行时间长短不一样,离子能够依次被收集检测出来。这种质量分析器结构简单、扫描速度快、灵敏度高、质量范围宽。TOF质谱仪的外表特色就是很是长,为了让离子可以尽量跑得远一些。
AB 4700和Bruker Ultraflex质谱仪

四极杆 (Quadrupole, Q)由四根平行的棒状电极组成而得名。四根电极分红两组,两个相对的是一组,在相对的电极上加上一个相同的交流电压和直流电压,而在相邻的电极上,则加上相反的交流电压和直流电压,经过叠加交流电压和直流电压,不一样质荷比的离子进入四级杆之后,会发生震荡,而后飞行转圈,当扫描的电压和频率必定的时候,只有特定质荷比的离子才能穿过四级杆。经过改变四级杆上的电压,咱们可让不一样质荷比的离子依次穿过质谱仪,到达检测器。而其它质荷比的离子就会由于偏转太多,而打到四级杆上,或者从缝隙里穿出。这种质量分析器结构简单、体积小,仅用电场不用磁场,扫描速度快,特别适合液相色谱联机,分辨率不高,对高质量离子有质量歧视效应。四级杆质谱仪的外观结构比较紧凑。
四级杆

离子阱(ion trap)与四级杆原理相似,所以也称四级离子阱,它的横截图跟四级杆质谱仪是同样的,只是它的侧面开了一个洞,来做离子弹出用的。四级杆质谱仪中,离子是穿过质谱仪飞出去的,而在离子阱质谱仪中,离子不会飞出质谱仪,而是一直在阱里面,沿着下图像8字型的轨迹飞行(阱指的就是陷阱,把离子包在里面一直转圈)。当扫描电压达到必定的数值之后,离子会被射出来。比四级杆灵敏度更高,质量范围大。离子阱分为线性离子阱和三维离子阱。线性离子阱具备更大的离子容量和扫描速度。也有人将静电轨道离子阱(Orbitrap)归并为离子阱的一类。
离子阱

TOF只能检测不一样质荷比的离子,却不能选择让哪些离子留下,而四级杆和离子阱既能够检测离子,同时也能够实现离子的选择,将想要的离子留在离子阱中,或者说让特定的离子穿过四级杆。因此四级杆或离子阱又叫质量过滤器,它能够过滤特定质荷比的离子。因此质量分析器其实包括两个部分,即质量过滤器和质量检测器。

Orbitrap的工做原理相似于电子围绕原子核旋转。因为静电力做用,离子受到来自中心纺锤形电极吸引力,因为离子进入离子阱以前的初速度以及角度,离子会围绕中心电极作圆周运动。经过傅立叶变换(Fast Fourier Transform, FFT),获得频谱图。由于共振频率和离子质量的直接对应关系,能够由此获得质谱图。

另外还有一类经常使用的是傅立叶变换离子回旋共振质量分析器(FTICR),基于在强磁场中,离子的回旋频率与离子质量成反比,因此测量离子的回旋频率能够得到其质量。它无需分离不一样质荷比的离子,而是在同一时间内同时测量全部离子的质荷比和丰度,最大限度地利用所有离子的信息,因此分析灵敏度高。可是FTICR对真空度要求极高,同时强磁场须要庞大的超导磁铁产生,因此成本很高。

FTICR和Orbitrap都是是基于离子在场中回旋运动,经过测定回旋共振频率,并进行傅里叶变换,来测定离子质荷比,区别在于Orbitrap用的是电场,而FTICR用的是磁场,因此Orbitrap性价比高,应用更广。

4)检测器
如电子倍增器、闪烁检测器、法拉第杯、照相检测等。

5)其余
除此以外,还包括真空系统,使离子能够稳定地飞行,不受其它空气分子的干扰。计算机系统,实现质谱仪的控制和数据的采集。气体系统,气体供应和废气处理(氮气、氩气)。电力供应,UPS不间断电源系统。

3. 质谱仪参数

评估一台质谱仪的性能,一般有如下指标:

1)检测限
与三倍噪音至关的物质的量,能够理解为这是质谱仪可以检测到的最低含量化合物的浓度。一般会用利血平来做为一个标准的化合物测定质谱仪的检测限。

能够认为,灵敏度与检测限评估的是同一种性能。

2)线性范围
表示在什么样的浓度范围以内,质谱仪检测到的信号与样品浓度之间成线性的关系。也就是说在这个浓度范围内的样品用这台质谱仪检测是比较合适的,高于或低于这个浓度范围的样品,须要浓缩或者稀释后才能用这台质谱仪检测。

通常质谱仪的线性范围在3-6个数量级,即1,000—1000,000范围内。而大部分质谱仪在1000 – 10,000这个范围内。

这个参数的意义在于,当咱们的样品在一个比较宽的浓度范围内时,若是质谱仪的线性范围很是好,就不须要浓缩低浓度的样品,也不须要稀释高浓度的样品,能够直接进样,这样就能够大大减小样品前处理的复杂程度,节省时间和实验步骤。

3)分辨率

即咱们一般所说的高分辨质谱。
image.png
分辨率就是质谱仪能够分辨最靠近的两个质谱峰的质量差值。当两峰重叠部分的高度不超过任何一个质谱峰峰高10%时,通常认为这是两个可分离的峰,测定其中任何一个质谱峰的半峰宽(即峰高一半处的峰宽),而后用任何一个峰的质荷比除以半峰宽,就能够获得分辨率。

目前高分辨质谱仪的分辨率能够达到50,000-100,000的数量级,通常的四级杆能够达到5,000-10,000。
image.png
上图圈出的峰在低分辨率时只能观察到一个峰(一个化合物),随着分辨率上升能够看出,这实际上是两个不一样峰的峰,因此高分辨率能得到更全面的化合物信息。

4)质量准确度
指质谱仪测到的质荷比与它实际的质荷比的差值,除以它真实的质荷比与1,000,000的乘积。因此它是以ppm为单位的(百万分之一),这个数值看起来更方便。目前高分辨质谱仪质量准确度在2-5个ppm的范围以内。

质量准确度高,能够大大减小候选化合物的数量,提升鉴定的成功率。

分辨率与质量误差分别评估了质谱仪的精密度与准确性,一般但愿二者都高。就像咱们打靶,好比打靶,若每一次都打在不是靶点的同一个点,说明精密度很是高,但准确性却比较差;若每次打的点很分散,但平均起来的位置恰好在靶心,则说明质量准确性还能够,但精密度比较差。

目前咱们能用到的高分辨质谱仪,无论是QTOF或者Orbitrap系列,均可以达到50,000以上的分辨率,同时也能够达到2-3ppm的质量准确性。下图是目前经常使用质谱仪的重要参数比较:
质谱仪参数比较
对于蛋白质组学研究来说,咱们对质谱仪器性能的最低要求是:分辨率至少在40,000-50,000,质量准确性应该优于5ppm,质量扫描范围应该在100-3,000,扫描速度是每秒至少得到一张高分辨的一级谱图和十张高分辨的二级谱图。

4. 串联质谱仪

串联质谱(MS/MS)就是将相同或者不一样的质谱仪串联起来,实现串联或者并联工做。这样作一是为了产生二级碎片离子,二是实现不一样质谱仪性能的优点互补。

常见的串联质谱有:

三重四级杆(Triple Quadrupole),或者串联四级杆,就是把三个四级杆串联起来,这样作的主要目的是为了实现二级质谱的扫描。

四级杆和飞行时间质谱仪串联到一块儿,就是咱们常常听到的Q-TOF,它其实是为了提升二级质谱的分辨率。

Orbitrap与四级杆/离子阱组合,好比Orbitrap Fusion,Orbitrap Elite等组合。

下面,用三重四级杆的例子来讲明串联质谱仪是如何得到二级碎片离子的。
串联四级杆

第一个四级杆Q1开启质量选择模式,它让特定质荷比的离子穿过质谱仪,而把其它的离子都甩掉(甩到四级杆上或者四级杆的空间当中去)。当特定的离子被选择好后(称为母离子,precursor ion),会进入碰撞池Q2(collision cell,用来碎裂离子)。在碰撞池里一般入口电压会高于出口电压,当母离子进来之后,经过电压差的做用加速,而后与碰撞池里的氦气或氮气分子发生碰撞、碎裂,造成碎片离子(fragment ions,也称子离子)。最后,这些碎片离子进入第三个四级杆Q3中进行二级的扫描,获得二级质谱图。
二级质谱图示例

其余的串联质谱运行大致是同样的。

Q-TOF,Bruker生产,Q1四级杆,Q2碰撞池,Q3飞行时间质谱仪。这里用了一个反射模式飞行(让离子拐个弯再飞回来),让离子在更短的空间内能够飞得更远一些。

Q-TOF
Orbitrap系列,如Q Exactive质谱仪,Q1也是一个四级杆,Q2是碰撞池,Q3是被一个Orbitrap所取代。

image.png
QE

Orbitrap Elite,Q1离子阱,Q2碰撞池,Q3为Orbitrap。

Orbitrap Fusion,Q1四级杆,Q2离子阱,Q3为Orbitrap,同时还有一个碰撞池,总体是一个很是复杂的结构。它的特色是Orbitrap与离子阱能够同步进行扫描(通常质谱仪的两个质量检测器是不能同时扫描的,只能一个作质量检测,一个作质量过滤),因此扫描速度会更快,性能也更好。Fusion的分辨率可达到240,000 – 960,000。

3、蛋白质组学的鉴定原理

蛋白质组学鉴定经常使用基于二维凝胶电泳和基于质谱两种方法。

1.基于二维凝胶分离 (2D-Gel)鉴定

这是传统蛋白质组学鉴定方法。大体原理是2D-Gel根据蛋白的等电点和分子质量的差别,经过等点聚焦和SDS-PAGE分离,经过染色和成像把不一样电性和大小的蛋白质显示在凝胶上。

具体来讲,就是利用聚丙烯酰胺凝胶(SDS-PAGE)电泳的电荷效应和分子筛效应,使之凝胶电泳迁移率与所带的电荷多少以及分子大小都有关,电荷越多跑得越快,分子越小跑得越快。
SDS-PAGE 蛋白质凝胶电泳图
这是蛋白质组学湿实验经常使用鉴定方法,不是咱们关注的重点。固然在基于质谱技术进行蛋白质鉴定前,也经常用这种方法来进行分离预处理。

2.基于质谱(MS)鉴定

1)鉴定大体流程

常规的蛋白质谱鉴定路线有这么几个步骤:
样本制备:细胞、组织、血液;蛋白复合体;特异修饰蛋白(如磷酸化、糖基化、泛素化等);
样本分离:1-D gel;2-D gel;LC(liquid chromatograph);
质谱分析:如MALDI-TOF、ESI-MS等;
数据库搜索:Sequest;Mascot;MaxQuant等;
数据分析:R、Linux、Perl、Python等。

2)色谱分离

色谱/层析(chromatography)是一种分离复杂混合物中各个组分的有效方法。它是利用不一样物质在由固定相和流动相构成的体系中具备不一样的分配系数,携带样品的流动相穿过固定相时,因为样品各组分理化性质存在差别,与固定相做用力弱的组分,移动速度快;反之,移动速度慢。根据不一样的保留时间,收集特定属性的样品进行进一步分析。色谱有多种,能够按固定相类型和分离原理进行分类,根据流动相的不一样可分为气相色谱和液相色谱。

根据相互做用类型的不一样,色谱法可分为吸附色谱法:物理吸附法,分配色谱法,离子交换色谱法,尺寸排阻色谱法,亲和色谱法等等。目前,在蛋白质组学研究中,用得最多的就是分配色谱法,就是根据样品在固定相与流动相之间溶解度的差别来实现多肽或蛋白的分离。其实是利用了多肽或蛋白疏水性上的差别。

液相色谱仪主要由如下4个部分组成:
色谱柱:玻璃柱+固定相
流动相输送系统:色谱柱填料很细,只有一点几微米到几微米,须要用一个泵来把流动相挤压下去。因此液相色谱要配一个泵系统,来输送流动相。
进样系统:用密封的系统须要一个自动进样器来完成。
检测系统:如今经常使用的有紫外或荧光,最简单的就是用肉眼来观察是否有样品流出。
液相色谱

上图左边是戴安的液相色谱仪,从上往下依次是泵系统、进样系统、柱系统和检测系统,右边是Waters的液相色谱仪,也是相似的结构。

对于蛋白质组学领域,经常使用的液相色谱仪是纳升液相色谱,其特色是色谱柱细,流速慢,减小样品被流动相稀释的倍数,从而提升检测的灵敏度。

高效(高压/高速)液相色谱(high performance liquid chromatography, HPLC)是目前很经常使用的一种液相色谱方法。其流动相为液体,在高压做用下快速流过固定相,分离效能高,灵敏度高,应用范围广,柱子可反复使用。最先洗脱出的是越亲水的。

3)液质联用技术

对于蛋白质组学研究来讲,液相色谱和质谱是不能单独工做的,它们必须联机工做,才能实现对蛋白质的检测。

液相色谱仪是在常温常压下工做的,柱子是放在空气中运行的,并且样品是溶解在流动相(水或有机溶剂)当中的。而质谱仪须要在真空环境下工做,样品须要从溶液状态转化为气态,并且须要被电离。因此总的来讲,咱们须要一个电离源,能把样品从常温常压的液相状态直接变成真空中的气态离子状态。

电离源要实现的功能有三个:一是去溶剂和睦化,把样品中的溶剂去掉,将待检测的多肽分子变成多肽的气态分子;二是将多肽的气态分子离子化,让它们带上电荷;三是把多肽的气态离子送到真空当中。

电喷雾电离(ESI)实现了这些,具体过程是这样的:样品首先经过一个毛细管喷针被喷出来,进入质谱仪,而在喷针的外面,会用一个鞘气(sheath gas)来辅助样品的雾化。对鞘气进行加热,当加热的鞘气吹到样品中或者溶液中时,溶液中的流动相或者溶剂就会挥发,就会剩下气态的离子。同时,在毛细管喷针尖端与质谱仪的入口之间,还会加一个电压,叫High voltage,对这些待电离的分子,首先溶剂挥发掉,而后分子被气化,最后在电场的做用下,分子就会变成离子,实现电离的过程。最后,这些离子会被质谱仪入口处的真空抽到质谱仪里,同时被电场驱动进入质谱仪。因而,就实现了气化、电离以及真空过渡三重需求。这就是液相色谱与质谱的接口,即ESI电喷雾电离。
ESI原理

简单来讲,色谱用来分离化合物,质谱用来分析纯物质的结构。

3.蛋白质组学分析策略

1) Bottom up

目前蛋白质组学分析应用最广的方法。也是咱们所说的“鸟枪法(shotgun)”,此处的“bottom”指的是肽段,“up”则是由肽段推理为蛋白的过程。即先将蛋白酶解成肽段,而后经过色谱分离肽段混合物,再用质谱技术将肽段碎裂,根据碎裂谱图的离子峰信息进行数据库搜索来鉴定肽段,最后将鉴定的肽段进行组装、从新归并为蛋白。

该方法技术发展成熟,相关的软件工具及算法都比较多,适合分析复杂样本。缺点是蛋白序列覆盖度不完整,听说覆盖度仅10%-20%。这就致使氨基酸序列高度类似的蛋白质变体(proteoform)推理不许确,并且因为是逆向组装蛋白,不适合进行翻译后修饰的检测。

2) Top down

这里的“top”指的是完整蛋白质分子的质量测定,“down”则是指对完整蛋白的碎裂。无需酶解,经过完整蛋白质的质量及其碎裂谱图信息能够实现真正意义上的蛋白质鉴定,序列覆盖度高(号称100%),能保留多种翻译后修饰之间的关联信息。可是该方法通量较低,不适合分析复杂样本,在完整蛋白质分离、质谱分析、生物信息学等各方面的技术相对也不完善。

蛋白质谱原理暂时介绍到这里,主要仍是介绍质谱仪的相关常识,下篇笔记将重点介绍基于串联质谱以及bottom up方法的蛋白质组学鉴定分析流程。

Ref:
ps:文中部分图片来自来自中国农业大学生物学院的李溱老师
http://www.crickcollege.com/news/179.html
http://www.crickcollege.com/news/220.html
http://www.crickcollege.com/news/222.html
http://www.crickcollege.com/news/233.html
https://wenku.baidu.com/view/d881c10502020740be1e9bad.html
https://wenku.baidu.com/view/85e9bbe9a5e9856a571260a0.html

相关文章
相关标签/搜索