[toc]python
一旦以前所设定的部分监控脚本超出了设定的值,咱们须要进行报警。shell
log=$1 //log做为一个变量,接收来自第一个参数的值 t_s=`date +%s` //时间戳 t_s2=`date -d "2 hours ago" +%s` //两个小时前的时间戳 if [ ! -f /tmp/$log ] //若是日志文件不存在 then echo $t_s2 > /tmp/$log //把两个小时前的时间戳写到日志第一行,从下往上写 fi t_s2=`tail -1 /tmp/$log|awk '{print $1}'` //截取时间戳,最后一行 echo $t_s>>/tmp/$log //追加当前时间戳,写入 v=$[$t_s-$t_s2] //时间戳的时间差(以秒为单位)详情以下① echo $v if [ $v -gt 3600 ] //此处的if判断是,当过了1小时若是仍是没有恢复再次发告警邮件。调用mail.py(若是没有恢复,每1小时发一次) then ./mail.py $1 $2 $3 //告警 echo "0" > /tmp/$log.txt //生成一个新的.txt日志。用来记录告警 else if [ ! -f /tmp/$log.txt ] //判断有没有这个日志文件(计数器文件) then echo "0" > /tmp/$log.txt //计数器归零 fi nu=`cat /tmp/$log.txt` //查看计数器的数字 nu2=$[$nu+1] //计数器+1 echo $nu2>/tmp/$log.txt //把计数器写入日志文件(重置) if [ $nu2 -gt 10 ] then ./mail.py $1 "trouble continue 10 min $2" "$3" //表明着已经持续了10分钟了 echo "0" > /tmp/$log.txt //从新归零开始计数 fi fi
[ ] ① 为何以秒为单位呢?这就涉及到了“告警收敛”,脚本是每隔一分钟执行一次的,若是触发了就告警,若是短期搞定或者告警数量不少,告警信息就会影响你解决分析判断问题,若是成千上百台机器,那就是太多了bash
[ ] ② 若是脚本开始报警,log 的$1是什么?还记得上篇文章当报警的时候执行mail.sh 紧接着给了个参数,那个参数就是所谓的$1。t_s 时间戳 t_s2 2小时以前的时间戳,定义两小时的缘由就是为了执行下面的if语句,条件成立就实现了我们的报警条件,开始报警。架构
[ ] ③ 发了邮件后,写一个计数器在log.txt中,else咱们如今就不执行了,由于那是小于3600才执行的东西。框架
[ ] ④ 脚本每分钟执行一次,第二次开始,log,t_s,t_s2相对于第一次只是增长了一分钟,判断文件是否存在,由于上一次刚刚执行过,因此必定是存在的,t_s2就只是增长了60s 因此通过提取给变量v,判断不超过3600,开始执行else的内容,第一次执行的时候已经建立了log.txt 因此是有的且nu为0 nu2为1,nu2不大于10,因此就是再次循环 。运维
[ ] ⑤ 直到执行到最后一步nu2为11了,那也就是到了10分钟了,若是故障仍是存在,运维再次收到一个告警邮件,故障已经持续10分钟了。这样就实现了我们所说的“告警收敛”ide
[ ] ⑥ 若是超过10分钟再次发了邮件,而后执行计数器归0,再次开始从新循环计数。测试
[ ] ⑦ 最后告警解除了,再也不调用mail.sh,也就恢复了,不在执行mail.sh了。debug
#!/usr/bin/env python #-*- coding: UTF-8 -*- import os,sys reload(sys) sys.setdefaultencoding('utf8') import getopt import smtplib from email.MIMEText import MIMEText from email.MIMEMultipart import MIMEMultipart from subprocess import * def sendqqmail(username,password,mailfrom,mailto,subject,content): gserver = 'smtp.qq.com' gport = 25 try: msg = MIMEText(unicode(content).encode('utf-8')) msg['from'] = mailfrom msg['to'] = mailto msg['Reply-To'] = mailfrom msg['Subject'] = subject smtp = smtplib.SMTP(gserver, gport) smtp.set_debuglevel(0) smtp.ehlo() smtp.login(username,password) smtp.sendmail(mailfrom, mailto, msg.as_string()) smtp.close() except Exception,err: print "Send mail failed. Error: %s" % err def main(): to=sys.argv[1] subject=sys.argv[2] content=sys.argv[3] ##定义QQ邮箱的帐号和密码,你须要修改为你本身的帐号和密码(请不要把真实的用户名和密码放到网上公开,不然你会死的很惨) sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content) if __name__ == "__main__": main() #####脚本使用说明###### #1. 首先定义好脚本中的邮箱帐号和密码 #2. 脚本执行命令为:python mail.py 目标邮箱 "邮件主题" "邮件内容"
*/1 * * * * cd /usr/local/sbin/mon/bin; bash main.sh
[root@xavi mail]# cd /usr/local/sbin/mon/bin/ [root@xavi bin]# sh -x main.sh + export send=1 + send=1 ++ grep -A1 'ens33: ' ++ /sbin/ifconfig ++ awk '/inet/ {print $2}' + export addr=192.168.72.130 + addr=192.168.72.130 ++ pwd + dir=/usr/local/sbin/mon/bin ++ echo /usr/local/sbin/mon/bin ++ awk -F/ '{print $NF}' + last_dir=bin + '[' bin == bin ']' + conf_file=../conf/mon.conf + exec
查看错误日志:日志
[root@xavi bin]# cat ../log/err.log ++ date '+%F %T' + echo '2018-04-25 23:40:33 load average' + /bin/bash ../shares/load.sh + grep -q to_mon_502=1 ../conf/mon.conf ++ grep logfile= ../conf/mon.conf ++ awk -F = '{print $2}' ++ sed 's/ //g' + export log=/data/log/xxx.xxx.com/access.log + log=/data/log/xxx.xxx.com/access.log + /bin/bash ../shares/502.sh grep: /data/log/xxx.xxx.com/access.log: 没有那个文件或目录
根据错误提醒修改部分参数设置:
[root@xavi bin]# vi ../conf/mon.conf
[root@xavi bin]# vi main.sh