告警系统配置文件、监控项目、邮件引擎、运行告警系统

告警系统配置文件

定义shell项目-告警系统mon.conf配置文件

配置文件(必定要放到conf目录下,名称必须为mon.conf ——PS:不能随意改动,由于在主脚本中已经设置好了)php

定义一些开关,定义一些对应的日志路径,或者说监控mysql的用户名和密码,以及IP地址port端口等python

[root@garytao-01 bin]# cd ..
[root@garytao-01 mon]# vim conf/mon.conf

例子,增长如下内容(内容根据需求更改):

## to config the options if to monitor
## 定义mysql的服务器地址、端口以及user、password
to_mon_cdb=0   
##cdb等于0 or 1, default 0,0 not monitor, 1 monitor
db_ip=10.20.3.13
db_port=3315
db_user=username
db_pass=passwd
## httpd   若是是1则监控,为0不监控
to_mon_httpd=0
## php 若是是1则监控,为0不监控
to_mon_php_socket=0
## http_code_502  须要定义访问日志的路径
to_mon_502=1
logfile=/data/log/xxx.xxx.com/access.log
## request_count   定义日志路径以及域名
to_mon_request_count=0
req_log=/data/log/www.discuz.net/access.log
domainname=www.discuz.net

告警系统监控项目

定义shell项目-告警系统load.sh

第一个load.sh是必需要有的,由于在主脚本中已经定义了任何一台机器都要监控系统负载mysql

[root@garytao-01 mon]# cd shares/
[root@garytao-01 shares]# vim load.sh

增长以下脚本内容:

#! /bin/bash
##Writen by aming##
load=`uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1`
#计算系统负载
if [ $load -gt 10 ] && [ $send -eq "1" ]
then
    echo "$addr `date +%T` load is $load" >../log/load.tmp
#这条命令的目的是为了发送日志
    /bin/bash ../mail/mail.sh aming_test@163.com "$addr\_load:$load" `cat ../log/load.tmp`
fi
echo "`date +%T` load is $load"

502.sh内容(502确定须要一个日志),502涉及到一个访问日志,访问日志又设计到一个时间linux

定义shell项目-告警系统502.sh
[root@garytao-01 shares]# vim 502.sh

增长以下脚本内容:

#! /bin/bash
d=`date -d "-1 min" +%H:%M`
c_502=`grep :$d:  $log  |grep ' 502 '|wc -l`
#截取一分钟之前的时间
if [ $c_502 -gt 10 ] && [ $send == 1 ]; then
     echo "$addr $d 502 count is $c_502">../log/502.tmp
     /bin/bash ../mail/mail.sh $addr\_502 $c_502  ../
#mail就是定义发送给谁,发送的主题,发送的内容log/502.tmp
fi
echo "`date +%T` 502 $c_502"
定义shell项目-告警系统disk.sh

disk.sh内容(磁盘使用率)sql

[root@garytao-01 shares]# vim disk.sh

增长以下脚本内容:

#! /bin/bash
##Writen by aming##
rm -f ../log/disk.tmp
LANG=en
for r in `df -h |awk -F '[ %]+' '{print $5}'|grep -v Use`
#[ %]+  以 多个,空格 或者 %   做为分隔符,+号表示一个或多个;由于系统默认是英文,因此grep -v Use 过滤掉的就是 已用
do
    if [ $r -gt 90 ] && [ $send -eq "1" ]
then
    echo "$addr `date +%T` disk useage is $r" >>../log/disk.tmp
fi
if [ -f ../log/disk.tmp ]
then
    df -h >> ../log/disk.tmp
    /bin/bash ../mail/mail.sh $addr\_disk $r ../log/disk.tmp
    echo "`date +%T` disk useage is nook"
else
    echo "`date +%T` disk useage is ok"
fi


#awk指定多个分隔符
[root@xietaolinux1 mon]# echo "12:aa#123bb:22#ww" |awk -F '[:#]' '{print $3}'
123bb
[root@xietaolinux1 mon]# echo "12:aa#123bb:22#ww" |awk -F '[:#]' '{print NF}'
5
[root@xietaolinux1 mon]# echo "12:aa#123bb:22##ww" |awk -F '[:#]' '{print NF}'
6
[root@xietaolinux1 mon]# echo "12:aa#123bb:22##ww" |awk -F '[:#]+' '{print NF}'
5

告警系统邮件引擎

  • 告警邮件引擎核心,conf主配置文件调用到的都是mail.sh ,因此这里须要定义调用mail.py的sh脚本
  • mail.sh目的是作告警收敛,若是不想作告警收敛,在发现问题的时候直接告警就好,可是,可能会发生1分钟前发现问题,1分钟户问题解决,这样就会变成误报,这样会很麻烦
  • 收敛的目的就是1分钟前发现问题,而后到10分钟后,服务尚未恢复,就会告诉管理人员10分钟了服务还未恢复
[root@garytao-01 mon]# cd mail/
[root@garytao-01 mail]# vim mail.py

增长以下内容:

#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from  subprocess import *
def sendqqmail(username,password,mailfrom,mailto,subject,content):
    gserver = 'smtp.qq.com'
    gport = 25
    try:
        msg = MIMEText(unicode(content).encode('utf-8'))
        msg['from'] = mailfrom
        msg['to'] = mailto
        msg['Reply-To'] = mailfrom
        msg['Subject'] = subject
        smtp = smtplib.SMTP(gserver, gport)
        smtp.set_debuglevel(0)
        smtp.ehlo()
        smtp.login(username,password)
        smtp.sendmail(mailfrom, mailto, msg.as_string())
        smtp.close()
    except Exception,err:
        print "Send mail failed. Error: %s" % err
def main():
    to=sys.argv[1]
    subject=sys.argv[2]
    content=sys.argv[3]
##定义QQ邮箱的帐号和密码,你须要修改为你本身的帐号和密码(请不要把真实的用户名和密码放到网上公开,不然你会死的很惨)
    sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content)
if __name__ == "__main__":
    main()
    
    
#####脚本使用说明######
#1. 首先定义好脚本中的邮箱帐号和密码
#2. 脚本执行命令为:python mail.py 目标邮箱 "邮件主题" "邮件内容"

在mail目录下建立脚本mail.sh ,当系统服务异常的时候就会调用mail.shshell

[root@garytao-01 mail]# vim mail.sh

增长以下内容:

#!/bin/bash

 log=$1
t_s=`date +%s`
t_s2=`date -d "2 hours ago" +%s`
#定义2个小时的时间戳
if [ ! -f /tmp/$log ]
#日志不存在就建立日志
then
    echo $t_s2 > /tmp/$log
fi

#下面这段,等同于一个计时器

t_s2=`tail -1 /tmp/$log|awk '{print $1}'`
echo $t_s>>/tmp/$log
v=$[$t_s-$t_s2]
echo $v

#当故障存在3600秒,就会进行告警

if [ $v -gt 3600 ]
then
    ./mail.py  $1  $2  $3
    echo "0" > /tmp/$log.txt
#等同于计数器
else
    if [ ! -f /tmp/$log.txt ]
    then
        echo "0" > /tmp/$log.txt
    fi
    nu=`cat /tmp/$log.txt`
    nu2=$[$nu+1]
    echo $nu2>/tmp/$log.txt
    if [ $nu2 -gt 10 ]
    then
         ./mail.py  $1 "trouble continue 10 min $2" "$3"
         echo "0" > /tmp/$log.txt
#邮件告警结束之后,从新开始计数
    fi
fi  

运行告警系统

写一个脚本进入到目录自动每分钟执行一次main.sh脚本
[root@garytao-01 mail]# pwd
/usr/local/sbin/mon/mail

#要执行告警系统,确定要是每分钟,执行一次
[root@garytao-01 mail]# crontab -e

手动执行脚本文件
[root@garytao-01 mail]# cd /usr/local/sbin/mon/bin/
[root@garytao-01 bin]# sh -x main.sh 
+ export send=1
+ send=1
++ /sbin/ifconfig
++ grep -A1 'ens33: '
++ awk '/inet/ {print $2}'
+ export addr=172.16.111.100
+ addr=172.16.111.100
++ pwd
+ dir=/usr/local/sbin/mon/bin
++ echo /usr/local/sbin/mon/bin
++ awk -F/ '{print $NF}'
+ last_dir=bin
+ '[' bin == bin ']'
+ conf_file=../conf/mon.conf
+ exec

#查看日志
[root@garytao-01 bin]# cat ../log/err.log    
++ date '+%F %T'
+ echo '2018-02-07 17:01:39 load average'
+ /bin/bash ../shares/load.sh
+ grep -q to_mon_502=1 ../conf/mon.conf
++ grep logfile= ../conf/mon.conf
++ awk -F = '{print $2}'
++ sed 's/ //g'
+ export log=/data/log/xxx.xxx.com/access.log
+ log=/data/log/xxx.xxx.com/access.log
+ $'/bin/bash\302\240\302\240../shares/502.sh'
main.sh:行23: /bin/bash  ../shares/502.sh: 没有那个文件或目录

#不须要写入502
[root@garytao-01 bin]# vi ../conf/mon.conf  

#暂时注释掉日志
[root@garytao-01 bin]# vi main.sh

#从新执行脚本
[root@garytao-01 bin]# sh -x main.sh  
+ export send=1
+ send=1
++ grep -A1 'ens33: '
++ awk '/inet/ {print $2}'
++ /sbin/ifconfig
+ export addr=172.16.111.100
+ addr=172.16.111.100
++ pwd
+ dir=/usr/local/sbin/mon/bin
++ echo /usr/local/sbin/mon/bin
++ awk -F/ '{print $NF}'
+ last_dir=bin
+ '[' bin == bin ']'
+ conf_file=../conf/mon.conf
++ date '+%F %T'
+ echo '2018-02-26 19:02:10 load average'
2018-02-26 19:02:10 load average
+ /bin/bash ../shares/load.sh
19:02:10 load is 0
+ grep -q to_mon_502=1 ../conf/mon.conf
[root@garytao-01 bin]# bash ../shares/load.sh 
19:03:04 load is 0


[root@garytao-01 bin]# cd ..
[root@garytao-01 mon]# cd mail/
[root@garytao-01 mail]# ls
mail.py  mail.sh
[root@garytao-01 mail]# vi mail.sh 
[root@garytao-01 mail]# cd ..
[root@garytao-01 mon]# cd shares/
[root@garytao-01 shares]# ls
502.sh  disk.sh  load.sh
[root@garytao-01 shares]# vim load.sh

相关文章
相关标签/搜索