
通常来讲,宏基因组测序数据量越大越有利于序列组装,要想深刻了解微生物群落每每须要深度测序,然而对于项目中大批量的样品,受制于成本每一个样品的测序量不会很大;此外,对于动物组织等特殊样本,去掉宿主序列后剩余的数据每每不多。为了得到更好的拼接结果、获得更多微生物序列,咱们能够将项目中类似来源的测序数据进行混合组装。须要注意的是,混合组装不等于将不一样样品的reads合并到一块儿进行组装,这样反而会给组装带来很大困扰;多样品拼接是一个不一样的组装策略,他能够利用序列在不一样样本的丰度相关进行聚类并延长。这里以Spades和Megahit为例进行介绍。css

nohup spades.py -o Spades --pe1-1 S1.clean_1.fq --pe2-1 S2.clean_1.fq --pe1-2 S1.clean_2.fq --pe2-2 S2.clean_2.fq -k 31,51,71,91,111 --meta -m 600 -t 20 &
MEGAHIT(https://github.com/voutcn/megahit)是一个快速的节约内存的宏基因组二代测序数据拼接工具,也能够适用于单基因组组装。其输入数据为fasta/fastq格式的reads或者其gz/bz2压缩文件。nginx
conda install -c bioconda megahit
MEGAHIT使用方法以下所示:git
megahit [options] {-1 <pe1> -2 <pe2> | --12 <pe12> | -r <se>} [-o <out_dir>]-1:双末端测序的第一端reads文件,为fasta/q格式,多样品文件之间逗号分隔,与参数-2一一对应-2:双末端测序的第二端reads文件,为fasta/q格式,多样品文件之间逗号分隔,与参数-1一一对应--12:混合的双末端reads文件,为fasta/q格式,多样品文件之间逗号分隔-r/--read:单端测序的reads文件,为fasta/q格式,多样品文件之间逗号分隔--k-list:组装的kmer size列表,支持多kmer组装,不一样kmer size之间逗号分隔,可设置的范围15-255,相邻kmer size间隔必须小于或等于28,默认为21,29,39,59,79,99,119,141--k-min:设置最小的kmer size,应小于255,必须为奇数,默认为21--k-max:设置最大的kmer size,应小于255,必须为奇数,默认为141--k-step:多kmer组装的kmer size间隔,应小于等于28必须为偶数,默认为12-m/--memory:构建SdBG可使用的最大内存,可设置0-1,也即占总内存的分数,默认为0.9--mem-flag:构建SdBG时的内存使用模式0-最小、1适中,或者使用-m/--memory设置具体的内存,默认为1-t/--num-cpu-threads:程序运行使用的核数-o/--out-dir:输出结果路径,默认为./megahit_out--out-prefix:输出结果文件的前缀,例如contig文件会是OUT_DIR/OUT_PREFIX.contigs.fa--min-contig-len输出的最短contigs,默认为200--keep-tmp-files:保存全部临时文件--tmp-dir:临时文件路径set temp directory
使用MEGAHIT进行多样品混合组装以下所示:github
nohup megahit -1 S1.clean_1.fq,S2.clean_1.fq -2 S1.clean_2.fq,S2.clean_2.fq --k-list 31,51,71,91,111 -o megahit_out --out-prefix mix_assembly -m 0.6 -t 20 &
本文分享自微信公众号 - 微生态与微进化(MicroEcoEvo)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。web