使用Nagios打造专业的业务状态监控

时间 2019-11-24

标签使用 nagios 打造专业业务状态监控繁體版

原文原文链接

想必各个公司都有部署zabbix之类的监控系统来监控服务器的资源使用状况、各服务的运行状态，是否这种监控就足够了呢？有没有遇到监控系统一切正常确发现项目没法正常对外提供服务的状况呢？本篇文章聊聊咱们如何简单的使用Nagios监控业务的状态php

文中的业务指用户访问的网站页面，对外提供的API接口，移动端的APP等产品html

监控的思考

一般咱们会在项目所在的机房部署一套监控系统来监控咱们服务器和MySQL之类的公共服务，制定报警策略，在出现异常状况的时候邮件或短信提醒咱们及时处理。mysql

此类监控主要的关注点有两个：ios

资源的占用状况，例如负载高低、内存大小、磁盘空间等
服务的状态监控，例如Nginx状态、Mysql主从状态等

同时也会存在如下两个主要问题：nginx

缺乏业务状态的监控，不能很直观的知道业务当前的状态，可能服务器、服务都正常但业务确挂了
监控服务器和业务服务器处于同一机房环境内，监控网络故障、入口网络拥堵等状况均可能会致使收不到监控系统的报警，且只能监控机房内的状况，用户到机房入口的状况没法监控

那么如何解决这两个问题呢？web

业务状态监控，就是要最直观的的反映业务当前是正常仍是故障，该怎么监控呢？以web项目为例，首先就是要肯定具体URL的返回状态，是200正常仍是404未找到等，其次要考虑页面里边的内容是否是正常，咱们知道最终反馈给用户内容的是由一些静态资源和后端接口数据共同组成的HTML页面，想知道内容究竟对不对这个比较困难，退而求其次咱们默认全部静态资源和后端接口都返回正常状态则表示正常，这个监控就比较容易实现了。redis

静态资源能够直接由nginx服务器处理，nginx的并发能力很强，通常不会成为性能的瓶颈，针对静态资源的监控咱们能够结合ELK一块儿来看。后端接口的处理性能就要差不少了，对业务状态的监控也主要是对后端接口状态的监控，那咱们是否须要监控全部的接口呢？这个实施起来比较麻烦，我以为没太大必要，只须要监控几个有表明性的接口就能够了，例如咱们全部的项目中都让开发单独加了一个health check的接口，这个接口的做用是链接项目全部用到的服务进行操做，如接口链接mysql进行数据查询以肯定mysql能给正常提供服务，链接redis进行get、set操做以肯定redis服务正常，对于这个接口的监控就能覆盖到整个链路的服务状况。sql

对于监控服务器和业务服务器在同一个机房内所致使的问题（上边讲到的第二点问题），咱们能够经过在不一样的网络环境内部署独立的状态监控来解决，例如办公区部署Nagios，不一样网络监控也更接近用户的网络状况，这套状态监控就区别于机房部署的资源占用监控了，主要用来监控业务的状态，也就是咱们上边提到的URL和接口状态。后端

咱们能不能直接将监控部署在机房外的环境来节省一套监控呢？例如公司或者其余的机房部署监控。这样不是个好方案，跨网络的监控性能太差了，首先网络之间的延迟都比同机房内要大的多，其次大量监控项频繁的数据传输对带宽也是不小的压力api

Nagios监控

咱们业务状态监控采用了Nagios，Nagios部署简单配置灵活，这种场景下很是适合。

系统环境：Debian8
nginx + nagios架构

部署Nagios

1.安装基础环境

# apt-get update
# apt-get install -y build-essential libgd2-xpm-dev autoconf gcc libc6 make wget
# apt-get install -y nginx php5-fpm spawn-fcgi fcgiwrap
复制代码

2.下载并解压nagios

# wget https://assets.nagios.com/downloads/nagioscore/releases/nagios-4.0.8.tar.gz
# tar -zxvf nagios-4.0.8.tar.gz 
# cd nagios-4.0.8

# ./configure && make all

# make install-groups-users
# usermod -a -G nagios www-data

# make install
# make install-init
# make install-config
# make install-commandmode
# cd ..
复制代码

nagios安装完成后就能够启动了，可是web页面是没法访问的，查看日志会报错(No output on stdout) stderr: execvp(/usr/local/nagios/libexec/check_ping, ...) failed. errno is 2: No such file or directory，这是由于咱们只安装了nagios的core，没有安装nagios的插件，须要安装插件来支持core工做

3.安装nagios-plugins

# wget https://nagios-plugins.org/download/nagios-plugins-2.2.1.tar.gz
# tar -zxvf nagios-plugins-2.2.1.tar.gz
# cd nagios-plugins-2.2.1
# ./configure
# make
# make install
# cd ..
复制代码

nagios的插件主要是添加了check_ping、checkhttp之类的辅助检查的脚本，默认位于/usr/local/nagios/libexec/下，能够借助这些插件来监控咱们的HTTP接口或主机、服务状态

4.建立nagios web访问的帐号密码

# vi /usr/local/bin/htpasswd.pl
#!/usr/bin/perl
 
use strict;
 
if ( @ARGV != 2 ){
    print "usage: /usr/local/bin/htpasswd.pl <username> <password>\n";
}
else {
    print $ARGV[0].":".crypt($ARGV[1],$ARGV[1])."\n";
}
# chmod +x /usr/local/bin/htpasswd.pl

#利用perl脚本生成帐号密码到htpasswd.users文件中
# /usr/local/bin/htpasswd.pl nagiosadmin nagios@ops-coffee > /usr/local/nagios/htpasswd.users
复制代码

nagios默认开启了帐号认证，认证相关的配置在这个文件里/usr/local/nagios/etc/cgi.cfg
若是安装了httpd服务，能够直接接触htpasswd命令生成密码，这里咱们没有httpd服务，因此写个perl脚原本生成密码

5.nginx添加server配置，让浏览器能够访问

server {
    listen       80;
    server_name  ngs.domain.com;

    access_log /var/log/nginx/nagios.access.log;
    error_log /var/log/nginx/nagios.error.log;

    auth_basic "Private";
    auth_basic_user_file /usr/local/nagios/htpasswd.users;

    root /usr/local/nagios/share;
    index index.php index.html;

    location / {
        try_files $uri $uri/ index.php /nagios;
    }

    location /nagios {
        alias /usr/local/nagios/share;
    }

    location ~ \.php$ {
        include /etc/nginx/fastcgi_params;
        fastcgi_pass unix:/var/run/php5-fpm.sock;
        fastcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name;
    }

    location ~ ^/nagios/(.*\.php)$ {
        alias /usr/local/nagios/share/$1;
        include /etc/nginx/fastcgi_params;
        fastcgi_pass unix:/var/run/php5-fpm.sock;
    }

    location ~ \.cgi$ {
        root /usr/local/nagios/sbin/;
        rewrite ^/nagios/cgi-bin/(.*)\.cgi /$1.cgi break;
        fastcgi_param AUTH_USER $remote_user;
        fastcgi_param REMOTE_USER $remote_user;
        include /etc/nginx/fastcgi_params;
        fastcgi_pass unix:/var/run/fcgiwrap.socket;
    }
}
复制代码

6.检查配置文件并启动

#检查配置文件是否有语法错误
# /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg 

#启动nagios服务
# /usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

#启动fcgiwrap和php5-fpm服务
# service fcgiwrap restart
# service php5-fpm restart
复制代码

7.浏览器访问服务器IP或域名就能够看到nagios的页面了，默认有本机的监控数据，不须要的话能够在配置文件localhost.cfg中删除

Nagios配置

Nagios的主配置文件路径为/usr/local/nagios/etc/nagios.cfg，里边默认已经配置了一些配置文件的路径，cfg_file=后边配置的都是配置文件，nagios程序会来这里读取配置，咱们能够新添加一个专门用来监控HTTP API的配置文件

cfg_file=/usr/local/nagios/etc/objects/check_api.cfg
复制代码

check_api.cfg里边的内容以下：

define service{
    use                     generic-service
    host_name               localhost
    service_description     web_project_01
    check_command           check_http!ops-coffee.cn -S
}

define service{
    use                     generic-service
    host_name               localhost
    service_description     web_project_02
    check_command           check_http!ops-coffee.cn -S -u / -e 200
}

define service{
    use                     generic-service
    host_name               localhost
    service_description     web_project_03
    check_command           check_http!ops-coffee.cn -S -u /action/health -k "sign:e5dhn"
}
复制代码

define service：定义一个服务，每个页面或api属于一个服务
use：定义服务使用的模板，模板配置文件在/usr/local/nagios/etc/objects/templates.cfg
host_name：定义服务所属的主机，咱们这里区别主机意义不大，统一都属于localhost好了
service_description：定义服务描述，这个值会最终展现在web页面上的service字段，定义应简单有意义
check_command：定义服务检查使用的命令，命令的配置文件在/usr/local/nagios/etc/objects/commands.cfg
check_http检测https接口时可使用-S参数，若是报错SSL is not available，那么你须要先安装libssl-dev包，而后从新编译（./configure --with-openssl=/usr/bin/openssl）部署nagios-plugin插件添加对ssl的支持

check_command咱们配置了check_http，须要修改commands.cfg文件中默认的check_http配置以下：

define command {
    command_name    check_http
    command_line    $USER1$/check_http -H $ARG1$
}
复制代码

define command：定义一个command
command_name：定义command的名字，在主机或服务的配置文件中能够引用
command_line：定义命令的路径和执行方式，这个check_http就是咱们经过安装nagios-plugin生成的，位于/usr/local/nagios/libexec/下，check_http的详细用法能够经过check_http -h查看，支持比较普遍

use咱们配置了generic-service，能够经过配置服务模板定义不少默认的配置以下：

define service {
    name                            generic-service         ; The 'name' of this service template
    active_checks_enabled           1                       ; Active service checks are enabled
    passive_checks_enabled          1                       ; Passive service checks are enabled/accepted
    parallelize_check               1                       ; Active service checks should be parallelized (disabling this can lead to major performance problems)
    obsess_over_service             1                       ; We should obsess over this service (if necessary)
    check_freshness                 0                       ; Default is to NOT check service 'freshness'
    notifications_enabled           1                       ; Service notifications are enabled
    event_handler_enabled           1                       ; Service event handler is enabled
    flap_detection_enabled          1                       ; Flap detection is enabled
    process_perf_data               1                       ; Process performance data
    retain_status_information       1                       ; Retain status information across program restarts
    retain_nonstatus_information    1                       ; Retain non-status information across program restarts
    is_volatile                     0                       ; The service is not volatile
    check_period                    24x7                    ; The service can be checked at any time of the day
    max_check_attempts              2                       ; Re-check the service up to 3 times in order to determine its final (hard) state
    check_interval                  1                      ; Check the service every 10 minutes under normal conditions
    retry_interval                  1                       ; Re-check the service every two minutes until a hard state can be determined
    contact_groups                  admins                  ; Notifications get sent out to everyone in the 'admins' group
    notification_options            w,u,c,r                 ; Send notifications about warning, unknown, critical, and recovery events
    notification_interval           60                      ; Re-notify about service problems every hour
    notification_period             24x7                    ; Notifications can be sent out at any time
    register                        0                       ; DON'T REGISTER THIS DEFINITION - ITS NOT A REAL SERVICE, JUST A TEMPLATE! } 复制代码

配置太多就不一一解释了，配合后边的英文注释应该看得懂，说几个重要的

max_check_attempts：重试几回来最终肯定服务的状态，例如咱们一个服务挂了，须要重试3次才会肯定这个服务确实是挂了，而后发邮件或短信通知咱们
check_interval：检查频率配置，在服务正常的状况下多长时间轮训检查一次，这里为了更及时的反馈结果咱们配置一分钟一次
retry_interval：当服务状态发生变动的时候多长时间轮序检查一次，咱们也给配置一分钟一次
contact_groups：定义联系人组，当发生故障须要报警时，发送报警给哪一个组，这个组的配置文件在/usr/local/nagios/etc/objects/contacts.cfg

contact_groups咱们配置了admins，接下来看下contacts.cfg的配置

define contact{
    contact_name                    sa       ; Short name of user
    use                             generic-contact     ; Inherit default values from generic-contact template (defined above)
    alias                           Nagios Admin        ; Full name of user

    service_notification_period     24x7
    host_notification_period        24x7
    service_notification_options    w,u,c,r
    host_notification_options       d,u,r
    host_notification_commands      notify-host-by-email,notify-host-by-sms
    service_notification_commands   notify-service-by-email,notify-service-by-sms

    email                           ops-coffee@domain.com
    pager                           15821212121,15822222222
}

define contactgroup{
    contactgroup_name       admins
    alias                   Nagios Administrators
    members                 sa
}
复制代码

contactgroup就是咱们定义的联系人组admins
admins组管理了成员sa联系人
sa联系人定义了主机和服务的命令，例如这里咱们定义的notify-host-by-email,notify-host-by-sms发邮件和发短信的命令，这个命令的定义位置跟咱们check_http的定义都在文件/usr/local/nagios/etc/objects/commands.cfg文件内

所有配置完成后重启nagios服务，会看到监控已经正常

Nagstamon插件

介绍一款配合nagios用起来很是棒的插件Nagstamon，Nagstamon是一款nagios的桌面小工具（实际上如今不只仅能配合nagios使用，还能配合zabbix等使用），启动后常驻系统托盘，当nagios监控状态发生变化时会及时的跳出来并发出声音警告，可以更加及时的获取业务状态。

配置以下：

Update interval可以配置多长时间取一次nagios的状态，咱们这里调整为1s
当出现报警时桌面直接飙红，给你心跳加速的感受

写在最后

业务状态监控做为Zabbix之类过程监控的补充，并不能替代过程监控系统，在咱们过程监控不是很完善的状况下颇有用，目前咱们有至关一部分的报警都首先发现于这套业务状态监控
选择Nagios主要是她比较纯粹，专一状态监控（有插件实现过程记录），且对Nagios比较熟悉了。Nagios看似配置复杂，几个配置文件环环相扣，实际上理清楚配置文件之间的关系就会发现配置合理且简单
部署的状态监控节点越多覆盖地区越多用户状态获取就越准确，但因为网络环境复杂，咱们也不可能在每一个省市、节点部署监控系统来监控项目的状态，若有必要能够考虑一些商业监控方案，可以作到全球节点监控，但相应的成本可能就会增长，要综合权衡

若是你以为文章对你有帮助，请转发分享给更多的人。若是你以为读的不尽兴，推荐阅读如下文章：