基因组变异汇总

人类基因组上的结构性变异研究对于基因组进化,群体多态性分析以及疾病易感性等方面的研究有着重要的意义。第二代短reads高通量测序技术的发展在带来了测序成本下降的同时,这种短读长的测序方式也给人类的变异检测带来了很大的挑战。这里我主要对当前经常使用的变异检测方法、软件以及他们各自的有肯定作一个简要的小结。算法

     人类基因组上的变异主要分为三大类:1. 单核苷酸变异,(一般称为单核苷酸多态性,通俗的说法就是单个DNA碱基的不一样,简称SNP);2. 小的Indel(Insertion 和 Deletion的简),指的是在基因组的某个位置上所发生的小片断序列的插入或者删除,其长度一般在50bp如下(这个长度范围的变异能够利用Smith-Waterman 的比对算法来得到1,2);3. 大的结构性变异,这种类型比较多,包括长度在50bp以上的长片断序列的插入或者删除、染色体倒位,染色体内部或染色体之间的序列易位,拷贝数变异,以及一些形式更为复杂的变异。为了和SNP变异做区分,第2和第3类变异一般也被称为基因组结构性变异(Structural variation,简称SV)。这里值得一提的是,研究人员对基因组的结构性变异发生兴趣,主要是因为这几年的研究发现:(1)虽然还未被普遍公认,但研究人员发现SV对基因组的影响比起SNP来讲还要大3;(2)基因组上的SV比起SNP而言,彷佛更能用于解释人类群体多样性的特征;(3)稀有且相同的一些结构性变异每每和疾病(包括一些癌症)的发生相关联甚至仍是其致病的诱因4–6。不过应该注意的地方是,大多数的结构性变异并不真正与疾病的发生相关联,可是却确实与周围环境的响应或者其余的一些表型多态性相联系。app

      近年来,随着芯片技术(这里的芯片技术和IT领域所说的芯不是同一个概念,这里指的是一种用于抓获基因组特定序列片断的技术)和第二代高通量测序技术的发展,人类基因组上的结构性变异图谱才被真正全面而又集中地进行了研究。生物信息研究人员已针对这两种不一样的技术开发了许多相对应的软件用于检测基因组的结构性变异。相比较而言,虽然成本较高,可是基于测序的方法要明显优于芯片的检测,其中最重要的一个方面是,高通量测序技术可以在单碱基精度之下对全基因组范围内全部类型的变异进行检测,而芯片技术实际上只对大片断的序列删除比较敏感。框架

      接下来我将会对目前基于第二代测序技术的变异检测方法进行介绍。事件

      在各大生物信息学期刊(包括Nature,Science,Cell等这些顶级期刊)上都有许多关于介绍变异检测方面的文章。这里我大体说一下四篇本身以为在这方面比较重要的文章:综述“Genome structural variation discovery and genotyping7”和综述“computational methods for discovering structural variation with next-generation sequencing”,这两篇文章所探讨的主要是,如何根据实验上和计算上的途径来检测和发现基因组上的各类变异,特别是对检测SVs而已。另外两篇文章则是基于千人基因组计划的,他们描述的是如何利用trio家系全基因组测序的数据和群体低覆盖度的数据来作变异检测的生物信息学方法8,9。然而须要指出的是,对于千人基因组计划,他们基本上只关注于一些大片断的序列删除和一些特定的序列插入方面的检测,而忽视了不少基因组上其余形式的变异。关于这方面的局限性,一方面多是因为生物信息检测方法上的不完善,另外一方面可能也和千人基因组自己的数据特色有关,使得他们难以准确地得到更多的信息。ip

      目前主要有4种检测基因组上结构性变异的策略,分别为:(1)Read pair(也称为Pair-end Mapping,简称PEM);(2)Split read(简称SR);(3)Read Depth(简称RD)和(4)基于de novo组装的方法(图1)。同时生物信息研究人员也已开发了众多根据以上4中策略中一种或者多种的软件用于结构性变异的检测。接下来我将对这四种策略以及他们各自的特色逐一进行介绍。ci

图1开发

      1. 基于Pair-end Mapping(PEM)get

      图2是PEM方法的一个主要分析框架,理论上来说,PEM方法可以检测到的变异类型包括:序列删除(deletion),序列插入(insertion),序列转置(inversion),染色体内部和染色体外部的易位(intra- and inter-chromosome translocation),序列串联倍增(tandem duplications)和序列在基因组上的散在倍增(interspersed duplications)。这里有两个地方须要指出,第一,对于序列删除的检测,其所能检测到的片断长度受插入片断长度的标准差(SD)所影响(这里的插入片断长度指的是测序以前在构建DNA测序文库阶段,所选取的经由超声波打断的DNA片断长度,这些片断也称之为测序片断,这是实验过程当中的操做,并非指基因组的变异),而且越大的序列删除约容易被检测到,而且准确性也越高;第二,其所能检测的序列插入,长度只能在插入片断长度的范围内,而且最大长度也受限于测序的插入片断长度的标准差。目前,Breakdancer是应用PEM方法的软件,也是在使用变异检测方面用得最普遍的软件之一。其余相似的软件还包括:VariationHunter10, Spanner, PEMer11等等。可是,事实上整个过程并不像流程图中看起来的那么简单,并且绝大多数的软件都在检测复杂的序列结构方面(如序列易位和序列倍增)存在很大的困难。it

图2pip

      

      2. Split Read(分裂read,简称SR)

      对于这个方法,首先要求比对软件具有soft-clip reads的能力,如BWA 比对软件。咱们知道目前illumina测序平台Pair-End测序的方法是对测序片断的两端来进行的,因此每次得到的都是来自同一个测序序列片断两端的一对read。当BWA成功地将这一对reads中的一条比对到参考序列上,而另外一条却没法正常比上的时候,BWA会对这条read没能正常比上的read尝试在比对上的那条read附近使用更为宽松的Smith-Waterman局部比对策略搜索可能的比对位置。若是这条read只有一部分可以比上,那么BWA会对其进行soft-clip,而这里也每每是包含结构性变异的断点之处。Pindel12,这是目前惟一一个使用SR方法进行变异检测的软件。它在千人基因组计划和生物信息分析人员中被普遍使用。图1中也清楚地展现了Split reads的信号如何被用来进行结构性变异的检测。首先,在得到了单端惟一比对到基因组上的PE read以后,Pindel会将不能比上的那条read切开成2或者3小段,而后再分别从新按照用户所设置的最大序列删除长度去比对,并得到最终的比对位置和比对方向,而断点位置的肯定则是根据soft-clipped的结果来得到。

      Pindel 理论上可以检测全部长度范围内的deletion,和小片断的insertion(长度在50bp如下),inversion,tandem duplication和一些large insertion。不过目前,做者并未公开发布关于检测lager insertion的原理。Split-reads的一个优点就在于,它们精确到单碱基。可是也和大多数的PEM方法同样,Pindel一样没法解决复杂结构性变异的情形。

      3. Read Depth (read 覆盖深度,简称RD)

      目前存在两种利用Read depth的信息检测大拷贝数变异(Copy number variation,包括丢失序列和序列重复倍增,简称CNV)的策略。一种是,经过检测样本在一个参考基因组上read的深度分布状况来检测CNV,适用于单样本;另外一种则是经过和识别出比较两个样本中所存在的丢失和重复倍增区,以此来得到相对的CNV,适用于case-control模型的样本。这有点像CGH芯片。CNVnator使用的是第一种策略,同时也普遍地被用于检测大的CNV。固然还有一些比较冷门的软件,可是因为他们没有发表相应的文章,这里就再也不列举了。CNV-seq使用的是第二个策略。基于其原理,RD的方法可以很好地用于检测一些大的deletion或者duplication事件,可是对于小的变异事件就无能为力了。

      4. 基于De novo assembly 

      理论上来说,de novo assembly 的方法应该要算是基因组变异检测上最有效的方法了。就目前来讲,它可以提供(特别是)对于long insertion和复杂结构性变异的最好检测方法。如今虽然研究人员开发了不少基于第二代测序技术数据来进行组装的软件,可是组装却仍然是一件棘手的事情,特别是脊椎动物的组装则更是如此。其中最主要的缘由在于,脊椎动物基因组上所存在的重复性序列和序列的杂合会严重影响组装的质量,除去资金成本,这也在很大程度上阻碍了利用组装的方法在基因组变异检测方面的应用。

      小结:

      经过对上面四种不一样的变异检测策略的比较能够发现,小长度范围内的变异以及较长的deletion,目前都可以较好地检测出来,但对于大多数的long insertion和更复杂的结构性变异状况,当前的检测软件基本都无法还解决。Assembly应是当前全面得到基因组上各类变异的最好方法,可是目前的局限却也发生在Assembly自己,如果基因组没能装得好,后面的变异检测就更是无从提及。从目前的状况看,de novo assembly的方法并不能很快进入实际的应用。所以,暂且不提assembly,其他的三种策略都各有各的优点,从目前的结果看,并无哪一款软件可以一次性地将基因组上的各类不一样状况变异类型都得到。所以就目前短reads高通量测序技术来讲,最合适的方案应是结合多个不一样的策略,将结果合并在一块儿,这样能够最大限度地将FP下降。HugeSeq pipeline13在这方面作了一个比较好的总结,这个软件整合了BreakDancer, CNVnator, Pindel,BreakSeq以及GATK的结果。可以给出一个相对比较准确的变异检测结果。

相关文章
相关标签/搜索