基于Prometheus和Grafana的监控平台 - 运维告警

经过前面的文章咱们搭建好了监控环境而且监控了服务器、数据库、应用,运维人员能够实时了解当前被监控对象的运行状况,可是他们不可能经过坐在电脑边上盯着DashBoard来发现服务器或应用异常。java

这就要求咱们须要一个告警功能,当服务器或应用指标异常时发送告警,经过邮件或者短信的形式告诉运维人员及时处理。node

今天咱们就来聊聊 基于Prometheus和Grafana的监控平台的异常告警功能。linux

告警方式

Grafana

新版本的Grafana已经提供了告警配置,直接在dashboard监控panel中设置告警便可,可是我用事后发现其实并不灵活,不支持变量,并且好多下载的图表没法使用告警,因此咱们不选择使用Grafana告警,而使用Alertmanager。程序员

Alertmanager

相比于Grafana的图形化界面,Alertmanager须要依靠配置文件实现,配置稍显繁琐,可是胜在功能强大灵活。接下来咱们就一步一步实现告警通知。web

告警类型

Alertmanager告警主要使用如下两种:数据库

  • 邮件接收器 email_config
  • Webhook接收器 webhook_config,会用post形式向配置的url地址发送以下格式的参数。
 {
 "version""2",
 "status""<resolved|firing>",
 "alerts": [{
   "labels":  < object > ,
   "annotations":  < object > ,
   "startsAt""<rfc3339>",
   "endsAt""<rfc3339>"
   }]
 }

「此次主要使用邮件的方式进行告警。」服务器

实现步骤

  • 下载
    从GitHub上下载最新版本的Alertmanager,将其上传解压到服务器上。tar -zxvf alertmanager-0.19.0.linux-amd64.tar.gz微信

  • 配置Alertmanager网络

vi alertmanager.yml
global:
  resolve_timeout: 5m
  smtp_smarthost: 'mail.163.com:25' #邮箱发送端口
  smtp_from: 'xxx@163.com'
  smtp_auth_username: 'xxx@163.com' #邮箱帐号
  smtp_auth_password: 'xxxxxx' #邮箱密码
  smtp_require_tls: false
route:
  group_by: ['alertname']
  group_wait: 10s  # 最初即第一次等待多久时间发送一组警报的通知
  group_interval: 10s # 在发送新警报前的等待时间
  repeat_interval: 1h # 发送重复警报的周期 对于email配置中,此项不能够设置太低,不然将会因为邮件发送太多频繁,被smtp服务器拒绝
  receiver: 'email'
receivers:
  - name: 'email'
    email_configs:
    - to: 'xxx@xxx.com'

修改完成后可使用 ./amtool check-config alertmanager.yml校验文件是否正确。架构

校验正确后启动alertmanager。nohup ./alertmanager &。(第一次启动能够不使用nohup静默启动,方便后面查看日志)

咱们只定义了一个路由,那就意味着全部由Prometheus产生的告警在发送到Alertmanager以后都会经过名为 email的receiver接收。实际上,对于不一样级别的告警,会有不一样的处理方式,所以在route中,咱们还能够定义更多的子Route。具体配置规则你们能够去百度进一步了解。

  • 配置Prometheus
    在Prometheus安装目录下创建rules文件夹,放置全部的告警规则文件。
alerting:
  alertmanagers:
  - static_configs:
    - targets: ['192.168.249.131:9093']

rule_files:
  - rules/*.yml

在rules文件夹下创建告警规则文件 service_down.yml,当服务器下线时发送邮件。

groups:
 - name: ServiceStatus
   rules:
     - alert: ServiceStatusAlert
       expr: up == 0  
       for: 2m 
       labels:
         team: node
       annotations:
         summary: "Instance {{ $labels.instance }} has bean down"
         description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes."
         value: "{{ $value }}"

「配置详解」

alert:告警规则的名称。
expr:基于PromQL表达式告警触发条件,用于计算是否有时间序列知足该条件。
for:评估等待时间,可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为PENDING,等待期后为FIRING。
labels:自定义标签,容许用户指定要附加到告警上的一组附加标签。
annotations:用于指定一组附加信息,好比用于描述告警详细信息的文字等,annotations的内容在告警产生时会一同做为参数发送到Alertmanager。

配置完成后重启Prometheus,访问Prometheus查看告警配置。

  • 测试
    关闭node_exporter,过2分钟就能够收到告警邮件啦,截图以下: Alertmanager的告警内容支持使用模板配置,可使用好看的模板进行渲染,感兴趣的能够试试!

The More

node exporter的一些计算语句

  • CPU使用率(单位为percent)
    (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
  • 内存已使用(单位为bytes)
    node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes
  • 内存使用量(单位为bytes/sec)
    node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes
  • 内存使用率(单位为percent)
    ((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes)/node_memory_MemTotal_bytes) * 100
  • server1的内存使用率(单位为percent)
    ((node_memory_MemTotal_bytes{instance="server1"} - node_memory_MemAvailable_bytes{instance="server1"})/node_memory_MemTotal_bytes{instance="server1"}) * 100
  • server2的磁盘使用率(单位为percent)
    ((node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"} - node_filesystem_free_bytes{fstype=~"xfs|ext4",instance="server2"}) / node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"}) * 100
  • uptime时间(单位为seconds)
    time() - node_boot_time
  • server1的uptime时间(单位为seconds)
    time() - node_boot_time_seconds{instance="server1"}
  • 网络流出量(单位为bytes/sec)
    irate(node_network_transmit_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • server1的网络流出量(单位为bytes/sec)
    irate(node_network_transmit_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • 网络流入量(单位为bytes/sec)
    irate(node_network_receive_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • server1的网络流入量(单位为bytes/sec)
    irate(node_network_receive_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • 磁盘读取速度(单位为bytes/sec)
    irate(node_disk_read_bytes_total{device=~"sd.*"}[5m])


原创不易,期待您的点赞与转发!



End




干货分享



这里为你们准备了一份小小的礼物,关注公众号,输入以下代码,便可得到百度网盘地址,无套路领取!

001:《程序员必读书籍》
002:《从无到有搭建中小型互联网公司后台服务架构与运维架构》
003:《互联网企业高并发解决方案》
004:《互联网架构教学视频》
006:《SpringBoot实现点餐系统》
007:《SpringSecurity实战视频》
008:《Hadoop实战教学视频》
009:《腾讯2019Techo开发者大会PPT》

010: 微信交流群






近期热文top



一、关于JWT Token 自动续期的解决方案

二、SpringBoot开发秘籍-事件异步处理

三、架构师之路-服务器硬件扫盲

四、基于Prometheus和Grafana的监控平台 - 环境搭建

五、RocketMQ进阶 - 事务消息



我就知道你“在看”





本文分享自微信公众号 - JAVA日知录(javadaily)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索