告警监控系统的构建(下)

[toc]python

shell项目-告警系统

  • [ ] 要求:咱们的机器角色多种多样,可是全部机器上都要部署一样的监控系统,也就说全部机器无论什么角色,整个程序框架都是一致的,不一样的地方在于根据不一样的角色,定制不一样的配置文件。
  • [ ] 程序架构:

mark

  • [x] bin下是主程序;
  • [x] conf下是配置文件;
  • [x] shares下是各个监控脚本;
  • [x] mail下是邮件引擎;
  • [x] log下是日志。

5、邮件引擎

一旦以前所设定的部分监控脚本超出了设定的值,咱们须要进行报警。shell

5.1 告警系统(核心配置) mail.sh(告警收敛)

log=$1          //log做为一个变量,接收来自第一个参数的值
t_s=`date +%s`      //时间戳
t_s2=`date -d "2 hours ago" +%s`    //两个小时前的时间戳
if [ ! -f /tmp/$log ]       //若是日志文件不存在
then
    echo $t_s2 > /tmp/$log      //把两个小时前的时间戳写到日志第一行,从下往上写
    fi
t_s2=`tail -1 /tmp/$log|awk '{print $1}'`     //截取时间戳,最后一行
echo $t_s>>/tmp/$log        //追加当前时间戳,写入
v=$[$t_s-$t_s2]     //时间戳的时间差(以秒为单位)详情以下①
echo $v
if [ $v -gt 3600 ]  //此处的if判断是,当过了1小时若是仍是没有恢复再次发告警邮件。调用mail.py(若是没有恢复,每1小时发一次)
then
    ./mail.py  $1  $2  $3 //告警
    echo "0" > /tmp/$log.txt        //生成一个新的.txt日志。用来记录告警
else
    if [ ! -f /tmp/$log.txt ]       //判断有没有这个日志文件(计数器文件)
    then
    echo "0" > /tmp/$log.txt        //计数器归零
    fi
    nu=`cat /tmp/$log.txt`          //查看计数器的数字
    nu2=$[$nu+1]                    //计数器+1
    echo $nu2>/tmp/$log.txt         //把计数器写入日志文件(重置)
    if [ $nu2 -gt 10 ]              
    then
        ./mail.py  $1 "trouble continue 10 min $2" "$3"         //表明着已经持续了10分钟了
        echo "0" > /tmp/$log.txt    //从新归零开始计数
    fi
fi

5.2 脚本详细解析:

  • [ ] ① 为何以秒为单位呢?这就涉及到了“告警收敛”,脚本是每隔一分钟执行一次的,若是触发了就告警,若是短期搞定或者告警数量不少,告警信息就会影响你解决分析判断问题,若是成千上百台机器,那就是太多了bash

  • [ ] ② 若是脚本开始报警,log 的$1是什么?还记得上篇文章当报警的时候执行mail.sh 紧接着给了个参数,那个参数就是所谓的$1。t_s 时间戳 t_s2 2小时以前的时间戳,定义两小时的缘由就是为了执行下面的if语句,条件成立就实现了我们的报警条件,开始报警。架构

  • [ ] ③ 发了邮件后,写一个计数器在log.txt中,else咱们如今就不执行了,由于那是小于3600才执行的东西。框架

  • [ ] ④ 脚本每分钟执行一次,第二次开始,log,t_s,t_s2相对于第一次只是增长了一分钟,判断文件是否存在,由于上一次刚刚执行过,因此必定是存在的,t_s2就只是增长了60s 因此通过提取给变量v,判断不超过3600,开始执行else的内容,第一次执行的时候已经建立了log.txt 因此是有的且nu为0 nu2为1,nu2不大于10,因此就是再次循环 。运维

  • [ ] ⑤ 直到执行到最后一步nu2为11了,那也就是到了10分钟了,若是故障仍是存在,运维再次收到一个告警邮件,故障已经持续10分钟了。这样就实现了我们所说的“告警收敛”ide

  • [ ] ⑥ 若是超过10分钟再次发了邮件,而后执行计数器归0,再次开始从新循环计数。测试

  • [ ] ⑦ 最后告警解除了,再也不调用mail.sh,也就恢复了,不在执行mail.sh了。debug

  • [ ] ⑧ 假如脚本在执行3分钟的时候,忽然故障恢复了,脚本也就不会再次执行,而后计数器保持在2,在计数周期内若是恢复,不告警即不发邮件,但只有在一个小时之后故障才会消失,大于3600的,若是在一个小时内再次报警,仍是按照以前的计数器继续执行!

5.3 发邮件python脚本 mail.py

#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from  subprocess import *
def sendqqmail(username,password,mailfrom,mailto,subject,content):
    gserver = 'smtp.qq.com'
    gport = 25
    try:
        msg = MIMEText(unicode(content).encode('utf-8'))
        msg['from'] = mailfrom
        msg['to'] = mailto
        msg['Reply-To'] = mailfrom
        msg['Subject'] = subject
        smtp = smtplib.SMTP(gserver, gport)
        smtp.set_debuglevel(0)
        smtp.ehlo()
        smtp.login(username,password)
        smtp.sendmail(mailfrom, mailto, msg.as_string())
        smtp.close()
    except Exception,err:
        print "Send mail failed. Error: %s" % err
def main():
    to=sys.argv[1]
    subject=sys.argv[2]
    content=sys.argv[3]
##定义QQ邮箱的帐号和密码,你须要修改为你本身的帐号和密码(请不要把真实的用户名和密码放到网上公开,不然你会死的很惨)
    sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content)
if __name__ == "__main__":
    main()

#####脚本使用说明######
#1. 首先定义好脚本中的邮箱帐号和密码
#2. 脚本执行命令为:python mail.py 目标邮箱 "邮件主题" "邮件内容"

5.4 运行告警系统

5.4.1 脚本加入crontab 每分钟执行一次

*/1 * * * * cd /usr/local/sbin/mon/bin; bash main.sh

mark

mark

5.4.2 执行main.sh,肯定最终结果

[root@xavi mail]# cd /usr/local/sbin/mon/bin/
[root@xavi bin]# sh -x main.sh
+ export send=1
+ send=1
++ grep -A1 'ens33: '
++ /sbin/ifconfig
++ awk '/inet/ {print $2}'
+ export addr=192.168.72.130
+ addr=192.168.72.130
++ pwd
+ dir=/usr/local/sbin/mon/bin
++ echo /usr/local/sbin/mon/bin
++ awk -F/ '{print $NF}'
+ last_dir=bin
+ '[' bin == bin ']'
+ conf_file=../conf/mon.conf
+ exec

查看错误日志:日志

[root@xavi bin]# cat ../log/err.log
++ date '+%F %T'
+ echo '2018-04-25 23:40:33 load average'
+ /bin/bash ../shares/load.sh
+ grep -q to_mon_502=1 ../conf/mon.conf
++ grep logfile= ../conf/mon.conf
++ awk -F = '{print $2}'
++ sed 's/ //g'
+ export log=/data/log/xxx.xxx.com/access.log
+ log=/data/log/xxx.xxx.com/access.log
+ /bin/bash ../shares/502.sh
grep: /data/log/xxx.xxx.com/access.log: 没有那个文件或目录

根据错误提醒修改部分参数设置:

[root@xavi bin]# vi ../conf/mon.conf

mark

[root@xavi bin]# vi main.sh

mark

  • load的测试已经成功
    mark

邮件发送再也不演示了,在配置到线上过程时,必定要保持各项的参数配置符合现场的需求或者设置

相关文章
相关标签/搜索