CheckM：基因组质量评估

基因组组装或者宏基因组binning得到的基因组草图，首先须要评估其质量，包括基因组完整度、污染度、序列分布等信息。css

基因组评估最经常使用的软件是 CheckM （ https://ecogenomics.github.io/CheckM/ ）。 CheckM 提供了一系列工具用于评估从分离培养、单细胞、宏基因组得到的基因组质量，能够根据基因组在参考基因组发育树中的位置来推断其精确的单拷贝标记基因集（ lineage-specificmarker set ），同时也提供数据库可用的基于分类学的基因集（ taxonomic-specificmarker set ）。 CheckM 利用基因的单拷贝性来有效的估计基因组完整度和污染，同时能绘制基因组关键特征（例如 GC 含量、编码率）的图像来评估基因组的质量。

CheckM 安装，所须要依赖的环境以下所示：

Python3HMMER (>=3.1b1)prodigal (2.60 or >=2.6.1)pplacer (>=1.1，https://github.com/matsen/pplacer)

安装方法以下所示：nginx

pip3 install numpypip3 install matplotlibpip3 install pysam#若是已安装能够忽略以上步骤pip3 install checkm-genome

下载数据库并设置数据库路径：

wget -c https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gztar -zxvf checkm_data_2015_01_16.tar.gzcheckm data setRoot $PATH/checkm_data

CheckM主要的工具命令以下所示：git

Lineage-specific marker set： tree 将bins放入参考基因组发育树 tree_qa 评估每一个bin里的系统发育标记基因 lineage_set 推断每一个bin的标记基因集Taxonomic-specific marker set： taxon_list 列出数据库可用的不一样分类水平列表    taxon_set    指定一个分类水平制做基因集

以上为两种肯定基因组标记基因集合（ marker set ）的方法，使用将 bins 放入系统发育树依据系统发育关系推断的标记集合为 lineage-specificmarker sets ，使用依据分类系统产生的为 taxonomic-specificmarker set 。

Apply marker set to genome bins： analyze 识别bins中的标记基因    qa        评估bins完整度和污染度

下面两个命令为上述命令的集合流程：

 lineage_wf 运行tree、lineage_set、analyze、qa    taxonomy_wf  运行taxon_set、analyze、qa

通常状况下推荐使用基于系统发育的流程，其使用方法以下所示：

checkm lineage_wf <bin folder> <output folder>

其中 bin folder 为含有 bins 序列的路径， output folder 为结果文件路径名称（程序会自动建立文件夹），若是所得到的 draft 基因组都是属于某个已知分类单元，那么使用基于分类学的方法更加便捷，使用方法以下所示：

checkm taxonomy_wf <rank> <taxon> <bin folder> <output folder>

其中 rank 为分类层级例如 phylum ， taxon 为分类单元例如 Cyanobacteria 。下面使用 lineage_wf 流程进行分析，以下所示：

nohup checkm lineage_wf -t 20 -x fa --nt --tab_table -f bins_qa.txt metabat_bins bins_qa_result &

其中-x指定bins文件的拓展名，输入路径中其余拓展名的文件将被忽略；--nt输出每一个bin中的基因序列（调用prodigal软件进行预测）；-f将默认输出到标准输出的评估结果储存到指定结果文件；--tab_table结果文件中表格形式的结果以tab分隔。github

运行结束后生成的 bins_qa.txt 结果文件中包含 bin 的谱系、基因组基因数目、 marker 基因数目、完整度、污染度等信息，以下所示：

在结果路径bins_qa_result/bins中为每一个bin预测的基因序列，在bins_qa_result/storage中则为每一个bin详细的评估信息，其中bin_stats.analyze.tsv为每一个bin基础统计信息，bin_stats.tree.tsv为每一个bin在发育树中的位置，bin_stats_ext.tsv为每一个bin对应的marker基因集，marker_gene_stats.tsv为每一个bin的序列上marker基因比对信息。sql

除了综合评估外， CheckM 提供了一系列工具来计算基因组特征，具体以下所示：

unbinned 识别没有被分装（unbinned）的序列coverage 计算序列的coveragetetra 计算每条序列的四核苷酸频率profile 计算map到每一个bin的reads的百分率，可用比较bins丰度join_tables 将tab分割的不一样bin信息表文件整合ssu_finder    识别序列中的核糖体小亚基RNA（SSU rRNAs），也即16S/18S

CheckM还提供了一系列做图工具，用于bins质量可视化，以下所示：数据库

bin_qa_plot：绘制bin完整度、污染度和异质性条形图gc_plot：绘制每一个bin的不一样序列GC含量分布直方图及偏差图coding_plot：绘制每一个bin序列的编码密度（coding density，CD）直方图及偏差图tetra_plot：绘制bin每条序列与bin平均四核苷酸频率的距离（tetranucleotide distance，TD）直方图及偏差图dist_plot：将以上三个图形绘制在一块儿

其中 dist_plot 使用方法以下所示：

checkm dist_plot [Options] out_folder bin_folder plot_folder tetra_profile dist_valueout_folder CheckM评估bins的结果文件夹，也即前面生成的bins_qa_resulttetra_profile tetra命令计算的contigs序列四核苷酸频率plot_folder 输出图像的文件夹，无需事先建立dist_value 几率分布距离，也即展现contigs序列的置信区间，用于偏差图--image_type 输出图片格式，可选eps、pdf、png、ps、svg，默认为png--dpi 输出图片的DPI，默认为600--font_size 输出图片字体大小，默认为8-x, --extension bins序列文件的拓展名，默认为fna，文件夹中其余后缀的文件将被忽略--width 输出图片的宽度，默认为6.5--height 输出图片的高度，默认为8-a, --gc_window_size 计算GC含量时滑窗大小（window size），默认为5000-b, --td_window_size 计算TD时滑窗大小，默认为5000-c, --cd_window_size 计算CD时滑窗大小，默认为10000-1, --gc_bin_width 图像中GC bars宽度，默认为0.01-2, --td_bin_width 图像中TD bars宽度，默认为0.01-3, --cd_bin_width 图像中CD bars宽度，默认为0.01-q, --quiet 压缩输出结果

下面绘制bins质量评估图像，以下所示：swift

checkm dist_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_plots ../checkm_tetra.out 95

评估结果以下所示：微信

bin_qa_plot使用方法以下所示：编辑器

checkm bin_qa_plot --image_type pdf -x fa bins_qa_result metabat_bins checkm_qa_plots

部分结果以下所示：ide

不一样的颜色分别表明单拷贝、丢失、杂合与污染的marker基因，每个bar表明一个marker，多拷贝基因之间氨基酸匹配（amino acid identity，AAI）大于90%被认为是杂合的（同一个物种不一样株的等位基因），而AAI小于90%被认为是其余物种污染。

为了进一步评估每一个bin的拼接程度，能够绘制Nx图（x=0.5即为基因组评估的N50），以下所示：

checkm nx_plot --image_type pdf -x fa --font_size 12 metabat_bins checkm_Nx_plots

评估结果以下所示：

另外两个类似的做图命令：

len_plot：每一个bin累积序列长度len_hist：每一个bin序列长度直方图

使用marker_plot命令可绘制marker基因在序列中的位置，以下所示：

checkm marker_plot --image_type pdf -x fa --font_size 10 bins_qa_result metabat_bins checkm_marker_plots

部分结果以下所示：

根据 CheckM 评估结果，可进行后续的基因组质量优化。

END

本文分享自微信公众号 - 微生态与微进化（MicroEcoEvo）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。