本文原创做者鲍光亚,京东商城基础平台部软件开发工程师,经做者赞成发表于本人博客,如需转载需经本人赞成。web
1、引言算法
随着监控量的迅速增加,zabbix管理员有一天会发现硬盘iops达到了数万,接近硬盘io的极限,无力支持处理更多监控数据。本文提出一种横向扩展方案,以尽可能小的改动,增长zabbix系统的数据io能力。
考虑到zabbix的数据库io主要在于history表和trends表,这一方案是在不增长zabbix server数量的状况下,将history表和trends表的io分散到其余主机上。此方案的优势是保持单个zabbix server,不须要考虑多server之间的协同一致。这一数据库分离模式还能够兼容原有的集中模式。可是,因为io分散到多个主机上,当须要读写数据时,不得不访问多个数据库实例。同时,代码中涉及数据库读写的部分,包括zabbix server和web api,都须要重写,好在大部分能够参考已有的代码。
本方案设计基于zabbix 3.0.10版本。本文只论及对zabbix server的改造方案,对web api的修改方案将另文讨论,本文不涉及。sql
2、zabbix数据读写机制数据库
因为configuration数据的io远小于history和trends数据io,本方案没有涉及对configuration数据的改动。
cache和vc_cache是zabbix源码中的两个变量名称,前者用于存储来自agent/proxy的原始数据,后者存储的则是从数据库中加载的数据(当数据已过时时,新数据则会直接从前者复制到后者之中),用于进行trigger计算等。
1.history和trends数据的写入
poller和trapper两类进程(包括pinger)负责从agent和proxy接收history数据,而后flush到cache中,同时更新cache中的trends数据。对cache的更新主要经过函数 process_hist_data实现。
dbsyncer进程则负责将cache中的数据写入到数据库中的history表和trends表中。因为dbsyncer存在多个进程,进程之间经过锁进行协调,避免冲突。cache数据入库主要经过DCsync_history和DCsync_trends两个函数实现。api
3、具体方案及实现数组
在数据库中,history表依照数据类型不一样分为history、history_uint、history_str、history_text、history_log五个表,trends表则分为trends和trends_uint两个表。遵循着分散io的思路,能够考虑两种方案,第一种方案是按照类别将history和trends分散到两个独立的数据库中,另一种是按照类别以及数据类型的不一样,将每个表都独立地存储到单个数据库中。下文主要按照第一种方案进行论述。缓存
4、数据一致性问题session
分离模式存在的风险之一是数据一致性问题。在集中模式时,zabbix经过互斥锁来协调对缓存的访问,保证缓存数据的一致性。写数据库时则经过transaction保证一致性。由于缓存锁机制的存在,数据库的分离与否并不会影响缓存的一致性,问题只能存在于数据库内部。
若是采用按类别分离的方案,即history和trends数据分别存储在两个数据库中,则须要考虑history、trends和其余表之间的一致性。若是采用按类别+数据类型分离的方案,则同时要考虑history各个表之间的数据一致性以及trends表之间的一致性。
经过分析源码中的transaction逻辑,history/trends表的更新操做不须要与其余表保持一致性(在数据库级别),在程序容许的状况下,双方能够独立写数据库。app
5、进一步的方案ide
遵循数据库分离的思路,更激进的方案是将history和trends数据中的每个表都进行拆分,以itemid或者clock为key按照必定的哈希算法,将数据分散存储到更多的数据库中。