NGS数据的Duplication

源自:http://www.biotrainee.com/thread-1382-1-1.htmlhtml

1、Duplicated reads算法

  duplicates reads 是PCR对同一个分子进行屡次镜像复制的结果。spa

  判断是否为镜像分子的标准是:reads的起始和终止位置,起点和终点之间的碱基序列同样(不妨简称为“三同样”)。只要起点、终点、或者起点与终点之间的序列三者之中有一个不一样,就是不一样的分子,称为unique reads。
  镜像复制出来的分子个数与总分子数的比例就是duplication rate,duplication rate = 1 - unique reads / total reads。htm

  PCR理论上就是用来镜像复制DNA片断的。对于最理想的NGS数据分析,就是尽量的把全部经过PCR得到的子链测序数据所有去除,把PCR的效果彻底消除,还原到没有PCR的状态。
  好比:设一个基因组有A、B两个片断,PCR后获得不管多少条reads,好比n・A+m・B条,在数据分析的时候,都只保留1条A和1条B(unique reads)用于组装,而去掉(n-1)条A和(m-1)条B。共有(n-1)条A和(m-1)条B被当成duplicated reads,尽管它们是正常PCR的正常产物。
  目前,现有算法实际上是一个简化的处理方案,把全部重复的reads都去掉了,留下彻底不重复的reads。算法没有能力区分“假重复”(人为形成的重复序列方面的bias)和“真重复”(自然存在的重复序列)。
  故,对于NGS 数据而言,Duplicateddata是一个生物信息学概念,不是分子生物学概念;是人为规定的,不是文库构建、高通量测序等生化反应天然生成的。
事件

2、影响duplication rate的因素get

1 模版分子种类的多样性(复杂度,complexity)
模板分子种类的多样性(复杂度,complexity)。
在循环次数相同和扩增效率相同的条件下,PCR起始时模板分子的多样性越多,PCR结束时镜像复制分子的数量就越少,比例就越低,dup rate就越低。NGS文库构建的PCR循环次数最好不要超过6个,以保证PCR产物具备足够的复杂度。

2 模版分子碱基组成的多样性(复杂度,complexity)
模板分子碱基组成的多样性(复杂度,complexity)。
碱基组成不同,PCR难易程度不同。容易PCR扩增的分子在测序数据中占优点。

3 连接效率
链接效率。
在分子多样性相同和PCR条件相同的状况下,建库过程当中模板与接头的链接效率越高,NGS数据的dup rate越低。

4 片断化的长度和随机性
片断化的长度和随机性。
超声波随机打断和酶切随机打断,就是为了得到分子多样性。这里必定强调随机。用一种或者多种内切酶得到的DNA片断,其分子多样性不如随机打断。
DNA片断的长度要适当。片断长度越小,致使PCR扩增越容易,加重了PCR bias,最后引发PCR产物复杂度下降,dup rate升高。

5 磁珠洗涤条件的严谨性
磁珠洗涤条件的严谨性。
磁珠吸附DNA在本质上是电荷吸附。DNA序列不一样,电荷密度不一样。若是洗涤条件不严谨,就会形成磁珠吸附有偏好性,也就意味着分子多样性下降,影响dup rate。
膜吸附也是一样的道理。

6 探针杂交封闭的有效性
探针杂交封闭的有效性。
若是探针杂交时LINE、Alu等重复序列未能有效封闭,必然形成dup rate升高,有效数据下降。
若是adaptor被未有效封闭,必然形成off target数据的比例升高。单位质量的DNA中,on target部分减小,势必形成on target部分中比例低的分子在测序数据中更容易减小或者缺失,即on target部分的分子多样性下降,影响dup rate。

7 Cluster PCR
Cluster PCR。
除了建库PCR,cluster在flowcell上的生成也是一个PCR过程。这个PCR容易被忽略。
反方:1条模板通过ClusterPCR只能造成1个cluster,测出1条read。Cluster PCR不增长测序reads的数量,因此不影响dup rate。
回答:cluster PCR若是形成cluster变少,则影响dup rate。缘由是比例少的分子有可能不能产生cluster,形成惟一性分子数减小,进而影响dup rate。
适当的cluster生成密度,不只可以得到最佳的数据产量,也可以得到较低的dup rate。不管ILMN仍是PGM平台,咱们都但愿cluster是单克隆(monoclonal)的,多克隆(Polyclonal)的cluster甚至是相互overlap的cluster都会被测序识别程序过滤掉,形成的直接影响就是cluster密度太高,数据产量下降,整张芯片的cluster多样性下降,形成dup rate升高。Cluster生成的第一步,是模板DNA分子与flowcell上的oligo杂交结合的过程。这个过程是随机事件。模板分子的多样性和复杂度越高,各类分子的比例越均一,dup rate就会越低。极端的状况就是每一个cluster只是一种模板分子的单克隆,这个时候dup rate是最理想的。
注:Illumina HiSeq X10以前的平台,flowcell上cluster的生成具备排他性,clusters能够长得挨在一块儿,可是不会相互重叠。只要其光学检测系统的分辨率足够,就不会有cluster信号的重叠。HiSeq X10以后的平台,flowcell上是打孔的,cluster长在孔里,生成多克隆cluster的可能性但愿专家指教。

8 试剂质量很差
试剂质量很差。
好比SBS测序试剂出了问题,有可能形成WES的dup rate升高到30%。

9 Dup rate与探针关系最小
Dup rate跟探针的关系最小。
极端的例子就是扩增子(PCR产物)测序,dup rate能够很高,但彻底没有探针存在。探针杂交过程当中最影响分子多样性的因素是探针分子与目标分子的比例,其次是杂交的时间。探针与目标分子的比例最低应该在100:1(必定的体积内,有体积的要求),高于这个比例,探针是可以将目标分子捕获的。目前的探针法NGS,这个比例是很高的,探针数量是高度冗余的。杂交法的目标是得到最多的分子包容性,得到最多的与参考序列不同的序列。只有增长分子包容性,才能最大可能地包含变异的类型,所以探针分子要长,杂交时间要长。NGS杂交不是为了特异性,而是为了更高的产量,得到更多的不许确。由于越准确,就意味着测序数据与参考序列(也就是探针序列)是同样的,这样就没有测序的必要了,也就没有发现新的信息的功能了。所以,杂交时间短,不能容纳最大序列可能性,形成分子多样性下降,进而影响dup rate。


3、模板分子多样性很是重要
总之,dup rate与模板分子的多样性呈反相关,全部影响分子多样性的环节与因素都会影响dup rate。

除了上面讲的那些因素,样本的性质也对模板分子的多样性有影响。如FFPE样本的dup rate高是共识。再如单细胞测序,单细胞DNA的有些区域在测序结果中压根就测不到。单细胞全基因测序的覆盖率是80%~90%,而多细胞全基因测序的覆盖率能达到99%以上,缘由就是分子多样性不一样。对于多细胞测序,相同区域的分子,这个细胞没有扩增到,另外一个细胞可能就扩增出来了;而单细胞只有两次机会,没了就是没了。

其余因素还包括模板DNA的质量、实验室科学家的操做习惯等。好比,一样是取200 ng模板DNA,一我的取0.1 uL得到200 ng,另外一我的取5 uL得到200ng,这两种方法的分子多样性不同。  数据分析

相关文章
相关标签/搜索