Prometheus监控node_exporter的告警规则

针对磁盘CPU,IO ,磁盘使用、内存使用、TCP、网络流量配置监控告警java

groups:node

    - name: 主机状态-监控告警docker

      rules:服务器

      - alert: 主机状态网络

        expr: up == 0ide

        for: 1m性能

        labels:.net

          status: 很是严重blog

        annotations:ip

          summary: "{{$labels.instance}}:服务器宕机"

          description: "{{$labels.instance}}:服务器延时超过5分钟"

      

      - alert: CPU使用状况

        expr: 100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by(instance)* 100) > 60

        for: 1m

        labels:

          status: 通常告警

        annotations:

          summary: "{{$labels.mountpoint}} CPU使用率太高!"

          description: "{{$labels.mountpoint }} CPU使用大于60%(目前使用:{{$value}}%)"

  

      - alert: 内存使用

        expr: 100 -(node_memory_MemTotal_bytes -node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes ) / node_memory_MemTotal_bytes * 100> 80

        for: 1m

        labels:

          status: 严重告警

        annotations:

          summary: "{{$labels.mountpoint}} 内存使用率太高!"

          description: "{{$labels.mountpoint }} 内存使用大于80%(目前使用:{{$value}}%)"

      - alert: IO性能

        expr: 100-(avg(irate(node_disk_io_time_seconds_total[1m])) by(instance)* 100) < 60

        for: 1m

        labels:

          status: 严重告警

        annotations:

          summary: "{{$labels.mountpoint}} 流入磁盘IO使用率太高!"

          description: "{{$labels.mountpoint }} 流入磁盘IO大于60%(目前使用:{{$value}})"

 

      - alert: 网络

        expr: ((sum(rate (node_network_receive_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance)) / 100) > 102400

        for: 1m

        labels:

          status: 严重告警

        annotations:

          summary: "{{$labels.mountpoint}} 流入网络带宽太高!"

          description: "{{$labels.mountpoint }}流入网络带宽持续2分钟高于100M. RX带宽使用率{{$value}}"

 

      - alert: 网络

        expr: ((sum(rate (node_network_transmit_bytes_total{device!~'tap.*|veth.*|br.*|docker.*|virbr*|lo*'}[5m])) by (instance)) / 100) > 102400

        for: 1m

        labels:

          status: 严重告警

        annotations:

          summary: "{{$labels.mountpoint}} 流出网络带宽太高!"

          description: "{{$labels.mountpoint }}流出网络带宽持续2分钟高于100M. RX带宽使用率{{$value}}"

      

      - alert: TCP会话

        expr: node_netstat_Tcp_CurrEstab > 1000

        for: 1m

        labels:

          status: 严重告警

        annotations:

          summary: "{{$labels.mountpoint}} TCP_ESTABLISHED太高!"

          description: "{{$labels.mountpoint }} TCP_ESTABLISHED大于1000%(目前使用:{{$value}}%)"

 

      - alert: 磁盘容量

        expr: 100-(node_filesystem_free_bytes{fstype=~"ext4|xfs"}/node_filesystem_size_bytes {fstype=~"ext4|xfs"}*100) > 80

        for: 1m

        labels:

          status: 严重告警

        annotations:

          summary: "{{$labels.mountpoint}} 磁盘分区使用率太高!"

          description: "{{$labels.mountpoint }} 磁盘分区使用大于80%(目前使用:{{$value}}%)"


版权声明:本文为CSDN博主「思考v」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处连接及本声明。

原文连接:https://blog.csdn.net/xiegh2014/java/article/details/91598728

相关文章
相关标签/搜索