告警邮件引擎的核心,conf主配置文件调用到的都是mail.sh 告警邮件引擎的核心须要定义调用mail.py的sh脚本,由于以前作zabbix的时候,作过mail.py的脚本,在这里,直接调用进行使用就能够。bash
mail.sh目的是作告警收敛,若是不想作告警收敛,在发现问题的时候直接告警就好,可是,可能会发生1分钟前发现问题,1分钟后问题解决,这样就会变成误报,这样告警的意义会下降,收敛的目的就是1分钟前发现问题,而后到10分钟后,服务尚未恢复,就会告诉管理人员10分钟了服务还未恢复,能够看作是一个告警的延迟判断或缓冲服务器
mail.py内容,mail.sh用于调用mail.py以及作告警邮件的收敛spa
#!/bin/bash log=$1 t_s=`date +%s` t_s2=`date -d "2 hours ago" +%s` ##定义2个小时的时间戳 #日志不存在就建立日志 if [ ! -f /tmp/$log ] then echo $t_s2 > /tmp/$log fi #下面这段,等同于一个计时器 t_s2=`tail -1 /tmp/$log|awk '{print $1}'` echo $t_s>>/tmp/$log v=$[$t_s-$t_s2] ##时间戳对比 echo $v #当故障存在3600秒,就会进行告警 if [ $v -gt 3600 ] then ./mail.py $1 $2 $3 echo "0" > /tmp/$log.txt ##等同于计数器 else if [ ! -f /tmp/$log.txt ] then echo "0" > /tmp/$log.txt fi nu=`cat /tmp/$log.txt` nu2=$[$nu+1] echo $nu2>/tmp/$log.txt if [ $nu2 -gt 10 ] then ./mail.py $1 "trouble continue 10 min $2" "$3" echo "0" > /tmp/$log.txt ##邮件告警结束之后,从新开始计数 fi fi
该脚本运用于,间隔3600秒的故障;10分钟内故障;间歇性故障;.net
核心的判断:计时、计数日志
20.26 运行告警系统code
由于告警系统的做用是监控系统的负载等各项服务器功能的使用状况,因此执行告警系统,须要每分钟执行一次blog
crontab -e ##建立任务计划(每分钟执行一次) * * * * * cd /usr/local/sbin/mon/bin ; bahs main.sh
注:监控发送邮件的部分,尽可能少用空格,由于mail.py发送邮件是以空格来定义三个参数的crontab
定义好计划之后,重启计划,查看load的检测值是否为0get