三代基因组测序技术原理简介

 

考虑到cnblog不适合基因组领域这种类型的文章, 最终,我本身开通了公众号:碱基矿工,欢迎感兴趣的同窗关注!并发

也能够关注个人知乎:https://www.zhihu.com/people/yellowtree/activities spa

2018年1月修改:这篇文章写于2013年,首发在cnblog上,目前已经比较旧了。我从新在WGS系列中对其进行重写,建议移步到这里设计

 


 

  摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了至关大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优点位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推进做用。在这里我主要对当前的测序技术以及它们的测序原理作一个简单的小结。3d

图1:测序技术的发展历程blog

  生命体遗传信息的快速得到对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年创建DNA双螺旋结构以来,整个测序技术的发展历程。ci

第一代测序技术开发

  第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类得到了窥探生命遗传差别本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首我的类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:因为ddNTP的2’和3’都不含羟基,其在DNA的合成过程当中不能造成磷酸二酯键,所以能够用来中断DNA合成反应,在4个DNA合成反应体系中分别加入必定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),经过凝胶电泳和放射自显影后能够根据电泳带的位置肯定待测分子的DNA序列(图2)。这个网址为sanger测序法制做了一个小短片,形象而生动。get

  值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法以外还出现了一些其余的测序技术,如焦磷酸测序法、连接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而链接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。数据分析

 

图2:Sanger法测序原理it

  第二代测序技术

  总的说来,第一代测序技术的主要特色是测序读长可达1000bp,准确性高达99.999%,但其测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。于是第一代测序技术并非最理想的测序方法。通过不断的技术开发和改进,以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了。第二代测序技术大大下降了测序成本的同时,还大幅提升了测序速度,而且保持了高准确性,之前完成一我的类基因组的测序须要3年时间,而使用二代测序技术则仅仅须要1周,但在序列读长方面比起第一代测序技术则要短不少。表1和图3对第一代和第二代测序技术各自的特色以及测序成本做了一个简单的比较5,如下我将对这三种主要的第二代测序技术的主要原理和特色做一个简单的介绍。 

 

图3. 测序成本的变化

  1. Illumine

  Illumina公司的Solexa和Hiseq应该说是目前全球使用量最大的第二代测序机器,这两个系列的技术核心原理是相同的2,4。这两个系列的机器采用的都是边合成边测序的方法,它的测序过程主要分为如下4步,如图4.

     (1)DNA待测文库构建

  利用超声波把待测的DNA样本打断成小片断,目前除了组装以外和一些其余的特殊要求以外,主要是打断成200-500bp长的序列片断,并在这些小片断的两端添加上不一样的接头,构建出单链DNA文库。

     (2)Flowcell

  Flowcell是用于吸附流动DNA片断的槽道,当文库建好后,这些文库中的DNA在经过flowcell的时候会随机附着在flowcell表面的channel上。每一个Flowcell有8个channel,每一个channel的表面都附有不少接头,这些接头能和建库过程当中加在DNA片断两端的接头相互配对(这就是为何flowcell能吸附建库后的DNA的缘由),并能支持DNA在其表面进行桥式PCR的扩增。

     (3)桥式PCR扩增与变性

  桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a所示。通过不断的扩增和变性循环,最终每一个DNA片断都将在各自的位置上集中成束,每个束都含有单个DNA模板的不少分拷贝,进行这一过程的目的在于实现将碱基的信号强度放大,以达到测序所需的信号要求。 

(4)测序

  测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH被化学方法所保护,于是每次只能添加一个dNTP。在dNTP被添加到合成链上后,全部未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。Illumina的这种测序技术每次只添加一个dNTP的特色可以很好的地解决同聚物长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。

 

 

图4. Illumina测序流程

  1. Roche 454

Roche 454测序系统是第一个商业化运营二代测序技术的平台。它的主要测序原理是(图5 abc)2

(1)DNA文库制备

  454测序系统的文件构建方式和illumina的不一样,它是利用喷雾法将待测DNA打断成300-800bp长的小片断,并在片断两端加上不一样的接头,或将待测DNA变性后用杂交引物进行PCR扩增,链接载体,构建单链DNA文库(图5a)。

(2)Emulsion PCR (乳液PCR,实际上是一个注水到油的独特过程)

454固然DNA扩增过程也和illumina的大相径庭,它将这些单链DNA结合在水油包被的直径约28um的磁珠上,并在其上面孵育、退火。

  乳液PCR最大的特色是能够造成数目庞大的独立反应空间以进行DNA扩增。其关键技术是“注水到油”(水包油),基本过程是在PCR反应前,将包含PCR全部反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间造成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每一个小水滴只含一个DNA模板和一个磁珠。

  这些被小水滴包被的磁珠表面含有与接头互补的DNA序列,所以这些单链DNA序列可以特异地结合在磁珠上。同时孵育体系中含有PCR反应试剂,因此保证了每一个与磁珠结合的小片断都能独立进行PCR扩增,而且扩增产物仍能够结合到磁珠上。当反应完成后,能够破坏孵育体系并将带有DNA的磁珠富集下来。进过扩增,每一个小片断都将被扩增约100万倍,从而达到下一步测序所要求的DNA量。

(3)焦磷酸测序

  测序前须要先用一种聚合酶和单链结合蛋白处理带有DNA的磁珠,接着将磁珠放在一种PTP平板上。这种平板上特制有许多直径约为44um的小孔,每一个小孔仅能容纳一个磁珠,经过这种方法来固定每一个磁珠的位置,以便检测接下来的测序反应过程。  

  测序方法采用焦磷酸测序法,将一种比PTP板上小孔直径更小的磁珠放入小孔中,启动测序反应。测序反应以磁珠上大量扩增出的单链DNA为模板,每次反应加入一种dNTP进行合成反应。若是dNTP能与待测序列配对,则会在合成后释放焦磷酸基团。释放的焦磷酸基团会与反应体系中的ATP硫酸化学酶反应生成ATP。生成的ATP和荧光素酶共同氧化使测序反应中的荧光素分子并发出荧光,同时由PTP板另外一侧的CCD照相机记录,最后经过计算机进行光信号处理而得到最终的测序结果。因为每一种dNTP在反应中产生的荧光颜色不一样,所以能够根据荧光的颜色来判断被测分子的序列。反应结束后,游离的dNTP会在双磷酸酶的做用降低解ATP,从而致使荧光淬灭,以便使测序反应进入下一个循环。因为454测序技术中,每一个测序反应都在PTP板上独立的小孔中进行,于是能大大下降相互间的干扰和测序误差。454技术最大的优点在于其能得到较长的测序读长,当前454技术的平均读长可达400bp,而且454技术和illumina的Solexa和Hiseq技术不一样,它最主要的一个缺点是没法准确测量同聚物的长度,如当序列中存在相似于PolyA的状况时,测序反应会一次加入多个T,而所加入的T的个数只能经过荧光强度推测得到,这就有可能致使结果不许确。也正是因为这一缘由,454技术会在测序过程当中引入插入和缺失的测序错误。 

 

图5. Roche 454测序流程

 

  1. Solid技术

Solid测序技术是ABI公司于2007年开始投入用于商业测序应用的仪器。它基于链接酶法,即利用DNA链接酶在链接过程之中测序(图6)2,4。它的原理是:

 

图6-a. Solid测序技术

    (1)DNA文库构建

                片断打断并在片断两端加上测序接头,链接载体,构建单链DNA文库。

           (2)Emulsion PCR

  Solid的PCR过程也和454的方法相似,一样采用小水滴emulsion PCR,但这些微珠比起454系统来讲则要小得多,只有1um。在扩增的同时对扩增产物的3’端进行修饰,这是为下一步的测序过程做的准备。3’修饰的微珠会被沉积在一块玻片上。在微珠上样的过程当中,沉积小室将每张玻片分红1个、4个或8个测序区域(图6-a)。Solid系统最大的优势就是每张玻片能容纳比454更高密度的微珠,在同一系统中轻松实现更高的通量。

           (3)链接酶测序

  这一步是Solid测序的独特之处。它并无采用之前测序时所经常使用的DNA聚合酶,而是采用了链接酶。Solid链接反应的底物是8碱基单链荧光探针混合物,这里将其简单表示为:3’-XXnnnzzz-5’。链接反应中,这些探针按照碱基互补规则与单链DNA模板链配对。探针的5’末端分别标记了CY五、Texas Red、CY三、6-FAM这4种颜色的荧光染料(图6-a)。这个8碱基单链荧光探针中,第1和第2位碱基(XX)上的碱基是肯定的,并根据种类的不一样在6-8位(zzz)上加上了不一样的荧光标记。这是Solid的独特测序法,两个碱基肯定一个荧光信号,至关于一次能决定两个碱基。这种测序方法也称之为两碱基测序法。当荧光探针可以与DNA模板链配对而链接上时,就会发出表明第1,2位碱基的荧光信号,图6-a和图6-b中的比色版所表示的是第1,2位碱基的不一样组合与荧光颜色的关系。在记录下荧光信号后,经过化学方法在第5和第6位碱基之间进行切割,这样就能移除荧光信号,以便进行下一个位置的测序。不过值得注意的是,经过这种测序方法,每次测序的位置都相差5位。即第一次是第一、2位,第二次是第六、7位……在测到末尾后,要将新合成的链变性,洗脱。接着用引物n-1进行第二轮测序。引物n-1与引物n的区别是,两者在与接头配对的位置上相差一个碱基(图6-a. 8)。也便是,经过引物n-1在引物n的基础上将测序位置往3’端移动一个碱基位置,于是就能测定第0、1位和第五、6位……第二轮测序完成,依此类推,直至第五轮测序,最终能够完成全部位置的碱基测序,而且每一个位置的碱基均被检测了两次。该技术的读长在2×50bp,后续序列拼接一样比较复杂。因为双次检测,这一技术的原始测序准确性高达99.94%,而15x覆盖率时的准确性更是达到了99.999%,应该说是目前第二代测序技术中准确性最高的了。但在荧光解码阶段,鉴于其是双碱基肯定一个荧光信号,于是一旦发生错误就容易产生连锁的解码错误。

 

图6-b. Solid测序技术

第三代测序技术

  测序技术在近两三年中又有新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies纳米孔单分子测序技术,被称之为第三代测序技术。与前两代相比,他们最大的特色就是单分子测序,测序过程无需进行PCR扩增。

  其中PacBio SMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。基本原理是: DNA聚合酶和模板结合,4色荧光标记 4 种碱基(便是dNTP),在碱基配对阶段,不一样碱基的加入,会发出不一样光,根据光的波长与峰值可判断进入的碱基类型。同时这个 DNA 聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其形成的损伤所影响。PacBio SMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的不少密集小孔。小孔直径有考究,若是直径大于微波波长,能量就会在衍射效应的做用下穿透面板而泄露出来,从而与周围小孔相互干扰。若是孔径小于波长,能量不会辐射到周围,而是保持直线状态(光衍射的原理),从而可起保护做用。同理,在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米小孔, 即 ZMW(零模波导孔),外径 100多纳米,比检测激光波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积20X 10-21 L)里,正好足够覆盖须要检测的部分,使得信号仅来自这个小反应区域,孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,能够经过检测相邻两个碱基之间的测序时间,来检测一些碱基修饰状况,既若是碱基存在修饰,则经过聚合酶时的速度会减慢,相邻两峰之间的距离增大,能够经过这个来之间检测甲基化等信息(图7)。SMRT技术的测序速度很快,每秒约10个dNTP。可是,同时其测序错误率比较高(这几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二代测序技术那样存在测序错误的偏向,于是能够经过屡次测序来进行有效的纠错。

 

图7.PacBio SMRT测序原理

  Oxford Nanopore Technologies公司所开发的纳米单分子测序技术与以往的测序技术皆不一样,它是基于电信号而不是光信号的测序技术5。该技术的关键之一是,他们设计了一种特殊的纳米孔,孔内共价结合有分子接头。当DNA碱基经过纳米孔时,它们使电荷发生变化,从而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不一样的),灵敏的电子设备检测到这些变化从而鉴定所经过的碱基(图8)。

  该公司在去年基因组生物学技术进展年会(AGBT)上推出第一款商业化的纳米孔测序仪,引发了科学界的极大关注。纳米孔测序(和其余第三代测序技术)有望解决目前测序平台的不足,纳米孔测序的主要特色是:读长很长,大约在几十kb,甚至100 kb;错误率目前介于1%至4%,且是随机错误,而不是汇集在读取的两端;数据可实时读取;通量很高(30x人类基因组有望在一天内完成);起始DNA在测序过程当中不被破坏;以及样品制备简单又便宜。理论上,它也能直接测序RNA。

  纳米孔单分子测序计算还有另外一大特色,它可以直接读取出甲基化的胞嘧啶,而没必要像传统方法那样对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。而且改方法的测序准确性可达99.8%,并且一旦发现测序错误也能较容易地进行纠正。但目前彷佛尚未应用该技术的相关报道。

 

图8. 纳米孔测序

 

  其余测序技术

  目前还有一种基于半导体芯片的新一代革命性测序技术——Ion Torrent6。该技术使用了一种布满小孔的高密度半导体芯片, 一个小孔就是一个测序反应池。当DNA聚合酶把核苷酸聚合到延伸中的DNA链上时,会释放出一个氢离子,反应池中的PH发生改变,位于池下的离子感觉器感觉到H+离子信号,H+离子信号再直接转化为数字信号,从而读出DNA序列(图9)。这一技术的发明人同时也是454测序技术的发明人之一——Jonathan Rothberg,它的文库和样本制备跟454技术很像,甚至能够说就是454的翻版,只是测序过程当中不是经过检测焦磷酸荧光显色,而是经过检测H+信号的变化来得到序列碱基信息。Ion Torrent相比于其余测序技术来讲,不须要昂贵的物理成像等设备,所以,成本相对来讲会低,体积也会比较小,同时操做也要更为简单,速度也至关快速,除了2天文库制做时间,整个上机测序可在2-3.5小时内完成,不过整个芯片的通量并不高,目前是10G左右,但很是适合小基因组和外显子验证的测序。    

  

           

图9. Ion Torrent

 

  小结

  以上,对各代测序技术的原理作了简要的阐述,这三代测序技术的特色比较汇总在如下表1和表2中。其中测序成本,读长和通量是评估该测序技术先进与否的三个重要指标。第一代和第二代测序技术除了通量和成本上的差别以外,其测序核心原理(除Solid是边链接边测序以外)都是基于边合成边测序的思想。第二代测序技术的优势是成本较之一代大大降低,通量大大提高,但缺点是所引入PCR过程会在必定程度上增长测序的错误率,而且具备系统偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它的根本特色是单分子测序,不须要任何PCR的过程,这是为了能有效避免因PCR偏向性而致使的系统错误,同时提升读长,并要保持二代技术的高通量,低成本的优势。

            表1:测序技术的比较

X

公司

平台名称

测序方法

检测方法

大约读长(碱基数)

优势

相对局限性

第一代

ABI/生命技术公司

3130xL-3730xL

桑格-毛细管电泳测序法

荧光/光学

600-1000

高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列

通量低;样品制备成本高,使之难以作大量的平行测序

第一代

贝克曼

GeXP遗传分析系统

桑格-毛细管电泳测序法

荧光/光学

600-1000

高读长,准确度一次性达标率高,能很好处理重复序列和多聚序列;易小型化

通量低;单个样品的制备成本相对较高

第二代

Roche/454

基因组测序仪FLX系统

焦磷酸测序法

光学

230-400

在第二代中最高读长;比第一代的测序通量大

样品制备较难;难于处理重复和同种碱基多聚区域;试剂冲洗带来错误累积;仪器昂贵

第二代

Illumina

HiSeq2000,HiSeq2500/MiSeq

可逆链终止物和合成测序法

荧光/光学

2x150

很高测序通量

仪器昂贵;用于数据删节和分析的费用很高

第二代

ABI/Solid

5500xlSolid系统

链接测序法

荧光/光学

25-35

很高测序通量;在广为接受的几种第二代平台中,所要拼接出人类基因组的试剂成本最低

测序运行时间长;读长短,形成成本高,数据分析困难和基因组拼接困难;仪器昂贵

第二代

赫利克斯

Heliscope

单分子合成测序法

荧光/光学

25-30

高通量;在第二代中属于单分子性质的测序技术

读长短,推高了测序成本,下降了基因组拼接的质量;仪器很是昂贵

第三代

太平洋生物科学公司

PacBio RS

实时单分子DNA测序

荧光/光学

~1000

高平均读长,比第一代的测序时间下降;不须要扩增;最长单个读长接近3000碱基

并不能高效地将DNA聚合酶加到测序阵列中;准确性一次性达标的机会低(81-83%);DNA聚合酶在阵列中降解;整体上每一个碱基测序成本高(仪器昂贵);

第三代

全基因组学公司

GeXP遗传分析系统

复合探针锚杂交和链接技术

荧光/光学

10

在第三代中通量最高;在全部测序技术中,用于拼接一我的基因组的试剂成本最低;每一个测序步骤独立,使错误的累积变得最低

低读长; 模板制备妨碍长重复序列区域测序;样品制备费事;尚无商业化供应的仪器

第三代

Ion Torrent/生命技术公司

我的基因组测序仪(PGM)

 合成测序法

以离子敏感场效应晶体管检测pH值变化

100-200

对核酸碱基的掺入可直接测定;在天然条件下进行DNA合成(不须要使用修饰过的碱基)

一步步的洗脱过程可致使错误累积;阅读高重复和同种多聚序列时有潜在困难;

第三代

牛津纳米孔公司

 gridION

纳米孔外切酶测序

电流

还没有定量

有潜力达到高读长;能够成本生产纳米孔;无需荧光标记或光学手段

切断的核苷酸可能被读错方向;难于生产出带多重平行孔的装置

  

       表2:主流测序机器的成本测序比较

  如下图10展现了当前全球测序仪的分布状况。图中的几个热点区主要分布在中国的深圳(主要是华大),南欧,西欧和美国。 

图10. 测序仪全球分布http://omicsmaps.com/#

 

  参考文献 

1.    Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).

2.    Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).

3.    Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).

4.    Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).

5.    Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).

6.    Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011). 

相关文章
相关标签/搜索