1三、基因组的拼接原理（转载沈梦圆的博客）

时间 2019-11-24

标签基因组拼接原理转载圆的博客繁體版

原文原文链接

最近学习了一下基因组的拼接原理，如下是个人学习笔记和一些思考。基因组的拼接原理是高通量测序技术的基础知识吧，我我的认为即便不作基因组拼接工做，也能够学习一下几个主流拼接软件的算法和原理。我主要是学习了两个网上教程，其教程出处为https://github.com/ TGAC/361Division/tree/master/de_novo_2016和https://github.com/ lexnederbragt/INF-BIO9120_fall2013_de_novo_assembly/tree/master/presentations。git

拼接是个啥？

A hierarchical data structure that maps the sequence data to a putative reconstruction of the target.(Miller et al 2010,Genomics 95(6):315-327) 基因组拼接能够类比成一本书被碎纸机碎个稀巴烂，而后用胶水把他们一片片给拼回去的过程。 github

拼接的过程就像一个黑箱处理过程，reads序列输入，通过拼接黑盒，输出就是基因组拼接好的结果。正确的拼接应该是The right motifs,the correct number of times,in correct order and position。我我的认为是尽量得还原真实的基因组是拼接的终极目的。算法
另外，拼接的算法分为试探型和穷举型两种，通常都用试探型算法，由于它更好更快更简单（在绝大多数时候）。穷举型算法局限性强、运行速度慢、召回率低，而且数据类型不尽相同，所以没有很好的模型适合所有的数据类型。数据库
在拼接以前，咱们确保输入的数据是去除接头、污染等的good data，而且要大概知道拼接的原理。最后完成拼接后，要检查拼接结果的可靠性和完整性。 ide

测序技术

测序长度越长，覆盖度越高，带来的拼接结果也会越好。而且根据研究目的的不一样，咱们使用不一样测序技术，产生不一样类型的数据，获得不一样的测序信息。学习

拼接算法

None of which is assessed by length stats.ui

Overlap Layout Consensus 找到重叠区域而且定义他们是key。layout有点难度。这种方法tracks每一条read。Consensus是由reads构建而成的。编码
De Bruijn Graphs 设计
OLC VS DE bruijn component

拼接实验前

有时候一次测序拼接结果可能很难达到预设的拼接目标，可能须要屡次补测样品来完善拼接结果。咱们在测序拼接前，须要知道所研究对象的基因组的大小、倍型、杂合性、GC含量、是否有污染物/ 共生者、数据集的类型、是否线粒体仍是叶绿体的细胞器基因组。其实这些内容在测序以前就须要考虑了，下面一些点进行进行较为详细的介绍：

（1）基因组大小的获取关系到对之后组装结果的大小的正确与否判断；基因组太大（>10Gb），可能会超出了目前denovo组装基因组软件的对机器存的要求，从客观条件上讲是没法实现组装的。通常物种的基因组大小能够从公共数据库查到。若是没有搜录，须要考虑经过实验（流式细胞仪福尔根染色/定量pcr/）或Kmer估计法来得到基因组大小。

（2）杂合度对基因组组装的影响主要体如今不能合并姊妹染色体，杂合度高的区域，会把两条姊妹染色单体都组装出来，从而形成组装的基因组偏大于实际的基因组大小。通常是经过SSR在测序亲本的子代中检查SSR的多态性。杂合度若是高于0.5%，则认为组装有必定难度。杂合度高于1%则很难组装出来。杂和度估计通常经过kmer分析来作，下降杂合度能够经过不少代近交来实现。杂合度高，并非说组装不出来，而是说，装出来的序列不适用于后续的生物学分析。好比拷贝数、基因完整结构。

（3）随着测序对质量要求愈来愈高和相关技术的逐渐成熟，遗传图谱也快成了denovo基因组的必须组成。

（4）实验设计须要考虑的问题：1.明确咱们的生物学问题;2.设计数据处理方案；3.设置实验条件和生物/技术重复数；4.选择测序平台和覆盖度。

为啥拼接挺难的

重复序列
二倍体
多倍性
可供选择的软件多

两个拼接软件

A modern assembler-SOAPdenovo2
Trinity运行的原理和过程 1 Trinity 如何运做 a. 序列延伸 (inchworm) ——虫子将 reads切为 k-mers (k bp长度的短片断) 拆分K-mer的目的：节省内存，下降测序错误对拼接的影响；利用Overlap关系对k-mers进行延伸 ( 贪婪算法)；输出全部的序列 (“ contigs”)。 b. 构建 de Bruijn graph (chrysalis)—— 成蛹聚类全部类似区域大于1kbp的 contigs；构图 (区分不一样的 “components”)；将reads比对回 components，进行验证 c. 解图，列举转录本 (butterfly)——化蝶拆分graph 为线性序列；使用reads以及 pairs关系消除错误序列。 2 组装质量评估与去冗余 d. 组装质量：组装完整性、组装准确性、后续定量准确性、组装冗余度 N50长度，能够初步评估组装质量；但并不是越长越好，应该参照相关的研究（同物种或近缘种）；经过统计Unigene对近缘种编码基因的覆盖度分，也能够从总体评估组装质量。 3 注释与其余

组装评估

(1) kmer spectra，可用软件KAT、CEGMA； (2)使用生物学知识去进行评估验证

Direct experimental evidence: the reads、Genome size、ploidy、GC content、Symbionts、Plastids、ESTs、cDNAs、peptides、genome walking
Indirect experimental evidence: genomes in general（Genes! （They have structure，Repeats），Chromosome macrostructure ，(circular?, number, telomeres, …)）、other species（Close relatives: proteins, transcripts, genomes； Distant relatives: single-copy genes, phylogeny, HGT）

偏差和质控

样本的准备和建库：样品未纯化，PCR误差（没有化学反应是perfect、complete的）

N50并非那么可靠、敏感，咱们要注意。

其余参考资料

https://www.cbcb.umd.edu/research/assembly_primer