宏基因组多样品的混合组装

通常来讲，宏基因组测序数据量越大越有利于序列组装，要想深刻了解微生物群落每每须要深度测序，然而对于项目中大批量的样品，受制于成本每一个样品的测序量不会很大；此外，对于动物组织等特殊样本，去掉宿主序列后剩余的数据每每不多。为了得到更好的拼接结果、获得更多微生物序列，咱们能够将项目中类似来源的测序数据进行混合组装。须要注意的是，混合组装不等于将不一样样品的reads合并到一块儿进行组装，这样反而会给组装带来很大困扰；多样品拼接是一个不一样的组装策略，他能够利用序列在不一样样本的丰度相关进行聚类并延长。这里以Spades和Megahit为例进行介绍。css

Spades

Spades （ http://cab.spbu.ru/software/spades/ ）可用于进行单细菌基因组组装，也能用于宏基因组测序数据，能够进行二代与三代测序数据的混合组装，也支持多样品组装。该工具在官网下载解压便可使用。

使用 Spades 进行多样品混合组装以下所示：

nohup spades.py -o Spades --pe1-1 S1.clean_1.fq --pe2-1 S2.clean_1.fq --pe1-2 S1.clean_2.fq --pe2-2 S2.clean_2.fq -k 31,51,71,91,111 --meta -m 600 -t 20 &

具体参数介绍详见：测序数据的组装：经常使用软件工具

Megahit

MEGAHIT（https://github.com/voutcn/megahit）是一个快速的节约内存的宏基因组二代测序数据拼接工具，也能够适用于单基因组组装。其输入数据为fasta/fastq格式的reads或者其gz/bz2压缩文件。nginx

最简便安装方法：

conda install -c bioconda megahit

MEGAHIT使用方法以下所示：git

megahit [options] {-1 <pe1> -2 <pe2> | --12 <pe12> | -r <se>} [-o <out_dir>]-1：双末端测序的第一端reads文件，为fasta/q格式，多样品文件之间逗号分隔，与参数-2一一对应-2：双末端测序的第二端reads文件，为fasta/q格式，多样品文件之间逗号分隔，与参数-1一一对应--12：混合的双末端reads文件，为fasta/q格式，多样品文件之间逗号分隔-r/--read：单端测序的reads文件，为fasta/q格式，多样品文件之间逗号分隔--k-list：组装的kmer size列表，支持多kmer组装，不一样kmer size之间逗号分隔，可设置的范围15-255，相邻kmer size间隔必须小于或等于28，默认为21,29,39,59,79,99,119,141--k-min：设置最小的kmer size，应小于255，必须为奇数，默认为21--k-max：设置最大的kmer size，应小于255，必须为奇数，默认为141--k-step：多kmer组装的kmer size间隔，应小于等于28必须为偶数，默认为12-m/--memory：构建SdBG可使用的最大内存，可设置0-1，也即占总内存的分数，默认为0.9--mem-flag：构建SdBG时的内存使用模式0-最小、1适中，或者使用-m/--memory设置具体的内存，默认为1-t/--num-cpu-threads：程序运行使用的核数-o/--out-dir：输出结果路径，默认为./megahit_out--out-prefix：输出结果文件的前缀，例如contig文件会是OUT_DIR/OUT_PREFIX.contigs.fa--min-contig-len输出的最短contigs，默认为200--keep-tmp-files：保存全部临时文件--tmp-dir：临时文件路径set temp directory

使用MEGAHIT进行多样品混合组装以下所示：github

nohup megahit -1 S1.clean_1.fq,S2.clean_1.fq -2 S1.clean_2.fq,S2.clean_2.fq --k-list 31,51,71,91,111 -o megahit_out --out-prefix mix_assembly -m 0.6 -t 20 &

往期相关文章回顾：

测序数据的解析： Fastq与FastQC

测序数据的质控： Trimmomatic！

测序数据拼接，首先要了解这些概念！

组装算法：为何是k-mer?

测序数据的组装：经常使用软件工具

k-mer分析：你的基因组有没有被污染？

本文分享自微信公众号 - 微生态与微进化（MicroEcoEvo）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。web