
基因组组装或者宏基因组binning得到的基因组草图,首先须要评估其质量,包括基因组完整度、污染度、序列分布等信息。css


Python3HMMER (>=3.1b1)prodigal (2.60 or >=2.6.1)1.1,https://github.com/matsen/pplacer) =
安装方法以下所示:nginx
pip3 install numpypip3 install matplotlibpip3 install pysam#若是已安装能够忽略以上步骤pip3 install checkm-genome
wget -c https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gztar -zxvf checkm_data_2015_01_16.tar.gzcheckm data setRoot $PATH/checkm_data
CheckM主要的工具命令以下所示:git
marker set: tree 将bins放入参考基因组发育树 tree_qa 评估每一个bin里的系统发育标记基因 lineage_set 推断每一个bin的标记基因集marker set: taxon_list 列出数据库可用的不一样分类水平列表 taxon_set 指定一个分类水平制做基因集
Apply marker set to genome bins: analyze 识别bins中的标记基因 qa 评估bins完整度和污染度
lineage_wf 运行tree、lineage_set、analyze、qa taxonomy_wf 运行taxon_set、analyze、qa
checkm lineage_wf <bin folder> <output folder>
checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>
nohup checkm lineage_wf -t 20 -x fa --nt --tab_table -f bins_qa.txt metabat_bins bins_qa_result &
其中-x指定bins文件的拓展名,输入路径中其余拓展名的文件将被忽略;--nt输出每一个bin中的基因序列(调用prodigal软件进行预测);-f将默认输出到标准输出的评估结果储存到指定结果文件;--tab_table结果文件中表格形式的结果以tab分隔。github
在结果路径bins_qa_result/bins中为每一个bin预测的基因序列,在bins_qa_result/storage中则为每一个bin详细的评估信息,其中bin_stats.analyze.tsv为每一个bin基础统计信息,bin_stats.tree.tsv为每一个bin在发育树中的位置,bin_stats_ext.tsv为每一个bin对应的marker基因集,marker_gene_stats.tsv为每一个bin的序列上marker基因比对信息。sql
unbinned 识别没有被分装(unbinned)的序列coverage 计算序列的coveragetetra 计算每条序列的四核苷酸频率profile 计算map到每一个bin的reads的百分率,可用比较bins丰度join_tables 将tab分割的不一样bin信息表文件整合ssu_finder 识别序列中的核糖体小亚基RNA(SSU rRNAs),也即16S/18S
CheckM还提供了一系列做图工具,用于bins质量可视化,以下所示:数据库
bin_qa_plot:绘制bin完整度、污染度和异质性条形图gc_plot:绘制每一个bin的不一样序列GC含量分布直方图及偏差图coding_plot:绘制每一个bin序列的编码密度(coding density,CD)直方图及偏差图tetra_plot:绘制bin每条序列与bin平均四核苷酸频率的距离(tetranucleotide distance,TD)直方图及偏差图dist_plot:将以上三个图形绘制在一块儿
checkm dist_plot [Options] out_folder bin_folder plot_folder tetra_profile dist_valueout_folder CheckM评估bins的结果文件夹,也即前面生成的bins_qa_resulttetra_profile tetra命令计算的contigs序列四核苷酸频率plot_folder 输出图像的文件夹,无需事先建立dist_value 几率分布距离,也即展现contigs序列的置信区间,用于偏差图--image_type 输出图片格式,可选eps、pdf、png、ps、svg,默认为png--dpi 输出图片的DPI,默认为600--font_size 输出图片字体大小,默认为8-x, --extension bins序列文件的拓展名,默认为fna,文件夹中其余后缀的文件将被忽略--width 输出图片的宽度,默认为6.5--height 输出图片的高度,默认为8-a, --gc_window_size 计算GC含量时滑窗大小(window size),默认为5000-b, --td_window_size 计算TD时滑窗大小,默认为5000-c, --cd_window_size 计算CD时滑窗大小,默认为10000-1, --gc_bin_width 图像中GC bars宽度,默认为0.01-2, --td_bin_width 图像中TD bars宽度,默认为0.01-3, --cd_bin_width 图像中CD bars宽度,默认为0.01-q, --quiet 压缩输出结果
下面绘制bins质量评估图像,以下所示:swift
checkm dist_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_plots ../checkm_tetra.out 95
评估结果以下所示:微信
bin_qa_plot使用方法以下所示:编辑器
checkm bin_qa_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_qa_plots
部分结果以下所示:ide
不一样的颜色分别表明单拷贝、丢失、杂合与污染的marker基因,每个bar表明一个marker,多拷贝基因之间氨基酸匹配(amino acid identity,AAI)大于90%被认为是杂合的(同一个物种不一样株的等位基因),而AAI小于90%被认为是其余物种污染。
为了进一步评估每一个bin的拼接程度,能够绘制Nx图(x=0.5即为基因组评估的N50),以下所示:
checkm nx_plot --image_type pdf -x fa --font_size 12 metabat_bins checkm_Nx_plots
另外两个类似的做图命令:
len_plot:每一个bin累积序列长度len_hist:每一个bin序列长度直方图
使用marker_plot命令可绘制marker基因在序列中的位置,以下所示:
checkm marker_plot --image_type pdf -x fa --font_size 10 bins_qa_result metabat_bins checkm_marker_plots
部分结果以下所示:

本文分享自微信公众号 - 微生态与微进化(MicroEcoEvo)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。