有一个Centreon 单节点监控系统(不含分布式),隔三差五的挂掉,幸亏咱们安排人手,时不时访问web管理后台,才没出现大的纰漏。其主要症状是Poller失效,但系统其它进程好比Apache、PHP、Centreon-engine等运行正常。
在Centreon Web管理界面重载(reload)或者重启(restart)cbd服务,无效;登陆系统,执行指令systemctl start cbd ,也无效,只能重启系统,才能正常。由于这个Centreon 是部署在PVE(Proxmox VE)平台,以虚拟机形式承载的,相关人员不胜其烦,认为是PVE的问题,打算将其备份,而后恢复到PVE的其它物理节点。我想了一下,PVE上那么多虚拟机,虽然是其它应用,但都没出现问题,并且出问题是Centreon的一个应用cbd而已,与虚拟机自己的关系不大,应该另有缘由。mysql
既然其它服务正常,那么咱们就从有故障的cbd服务入手。找到cbd日志所在的目录,其完整路径为/var/log/centreon-broker,查看其下的文件,其大体状况以下:web
虽然日志文件很多,但能查到有用信息的文件是centreon-master.log这个,在个案里边,解决故障的日期是11月25日,所以我就查看文件central-broker-master.log-20201125,若是时间再久远一些,系统会自动把旧文件压缩打包,以.gz的形式结尾。Centreon 自带工具zcat,能够直接查看.gz结尾的文件。这里,我随机打开一个,看是否有收获。
果真有报错信息,原来是数据库链接不上。再查看一下11月25日那个日志文件,由于这个文件比其余文件都大,信息应该更详细。
根据报错信息,个人解读就是:Mysql链接不上,致使cbd服务不能正常运行。那么好办,mysql就在本机,顺藤摸瓜查看mysql是什么情况。sql
先看mysql进程是否运行,哦豁!没运行呢。前边只顾查看centreon开头的进程是否运行,给mysql忘记了。原来确定是运行着的,否则监控一直就应该处于不正常状态。看了一眼系统日志及磁盘空间使用状况(怕磁盘塞满),未发现有用信息,那么剩下的地方就是Mysql错误日志能够做为选择目标,其所在路径为/var/lib/mysql,文件名以主机名加.err后缀结尾.
打开它,看看到底什么缘由所致。
初步判断是字符集的问题。为何会出现这个问题,可能的缘由是我常常对系统执行yum update 升级系统,其它的软件包升级都正常,而Mariadb却没有一次升级成功的。因而就计划尝试对Mariadb进行升级,看问题是否还存在。数据库
大体分如下几个步骤进行:分布式
登陆Centreon Web管理后台,查看Poller运行状态,图标变成绿色,则表示运行正常,故障处理成功。
继续观察很多天,看故障是否还会重现。经过10多天的观察,再也没发生一样的故障,若是有其它监控,能够把这个Centreon也给监控上。ide