zabbix 触发器表达式详解

时间 2020-07-17

原文原文链接

概述:触发器中的表达式使用很灵活，咱们能够建立一个复杂的逻辑测试监控，触发器表达式形式以下:node

{<server>:<key>.<function>(<parameter>)}<operator><constant>

{主机：key.函数(参数)}<表达式>常数，具体的例子，请接着往下走，很简单nginx

Functions函数:触发器functions能够引用检索到的值，当前时间或者其余元素。触发器表达式支持的function完整列表请点击官网地址 supported functionsweb

Function参数----大多数数值functions可使用秒来做为参数。你可使用前缀“#”来表示它有不一样的含义express

FUNCTION CALL	描述
sum(600)	600秒内的总和
sum(#5)	最新5个值的和

last函数使用不一样的参数将会获得不一样的值，#2表示倒数第二新的数据。例入从老到最新值为1,2,3,4,5,6,7,8,9,10，last(#2)获得的值为9，last(#9)获得的值为2。last函数必须包含参数。
AVG，count，last，min和max函数还支持额外的参数，以秒为单位的参数time_shift（时间偏移量）。例如avg(1h,1d)，那么将会获取到昨天的1小时内的平均数据。windows

[warning]备注：触发器表达式须要使用history历史数据来计算，若是history不可用（time_shift时间偏移量参数没法使用），所以history记录必定要保留长久一点，至少要保留须要用的记录。[/warning]
触发器表达式可使用单位符号来替代大数字，例如5m替代300，或者1d替代86400,1k替代1024字节等等。服务器

操做符

优先级	操做	定义
1	/	除
2	*	乘
3	-	减
4	+	加
5	<	小于. 用法以下: A<B ⇔ (A<=B-0.000001)
6	>	大于. 用法以下: A>B ⇔ (A>=B+0.000001)
7	#	不等于.用法以下: A#B ⇔ (A<=B-0.000001) \| (A>=B+0.000001)
8	=	等于. T用法以下: A=B ⇔ (A>B-0.000001) & (A<B+0.000001)
9	&	逻辑与
10	\|	逻辑或

触发器示例网络

示例---触发器名称：Processor load is too high on www.zabbix.com

{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5

触发器说明：app

www.zabbix.com：host名称frontend

system.cpu.load[all,avg1]：item值,一份内cpu平均负载值tcp

last(0)：最新值

>5：最新值大于5

如上所示，www.zabbix.com这个主机的监控项，最新的CPU负载值若是大于5，那么表达式会返回true，这样一来触发器状态就改变为“problem”了。

示例二---触发器名称：www.zabbix.com is overloaded

{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(10m)}>2

当前cpu负载大于5或者最近10份内的cpu负载大于2，那么表达式将会返回true.

示例三---触发器名称：/etc/passwd has been changed,使用函数 diff():

{www.zabbix.com:vfs.file.cksum[/etc/passwd].diff(0)}>0

/etc /passwd最新的checksum与上一次获取到的checksum不一样，表达式将会返回true. 咱们可使用一样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。这些zabbix通常都会自带，没带的你本身加上吧。

示例四----触发器名称：Someone is downloading a large file from the Internet,使用函数 min:

{www.zabbix.com:net.if.in[eth0,bytes].min(5m)}>100K

当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true

示例五---触发器名称：Both nodes of clustered SMTP server are down

{smtp1.zabbix.com:net.tcp.service[smtp].last(0)}=0&{smtp2.zabbix.com:net.tcp.service[smtp].last(0)}=0

当smtp1.zabbix.com和smtp2.zabbix.com两台主机上的SMTP服务器都离线，表达式将会返回true.

示例六---触发器名称：Zabbix agent needs to be upgraded，使用函数str():

{zabbix.zabbix.com:agent.version.str("beta8")}=1

若是当前zabbix agent版本包含beta8（假设当前版本为1.0beta8），这个表达式会返回true.

示例七---触发器名称：Server is unreachable

{zabbix.zabbix.com:icmpping.count(30m,0)}>5

如上表达式表示最近30分钟zabbix.zabbix.com这个主机超过5次不可到达。

示例八---触发器名称：No heartbeats within last 3 minutes，使用函数 nodata():

{zabbix.zabbix.com:tick.nodata(3m)}=1

tick 为Zabbix trapper类型，首先咱们要定义一个类型为Zabbix trapper，key为tick的item。咱们使用zabbix_sender按期发送数据给tick，若是在3分钟内还未收到 zabbix_sender发送来的数据，那么表达式返回一个true，与此同时触发器的值变为“PROBLEM”。

示例九---触发器名称：CPU activity at night time,使用函数 time():

{zabbix:system.cpu.load[all,avg1].min(5m)}>2&{zabbix:system.cpu.load[all,avg1].time(0)}>000000&{zabbix:system.cpu.load[all,avg1].time(0)}<060000

只有在凌晨0点到6点整，最近5分钟内cpu负载大于2，表达式返回true，触发器的状态变动为“problem”

示例十---触发器名称：Check if client local time is in sync with Zabbix server time,使用函数 fuzzytime():

{MySQL_DB:system.localtime.fuzzytime(10)}=0

主机MySQL_DB当前服务器时间若是与zabbix server之间的时间相差10秒以上，表达式返回true，触发器状态改变为“problem”

示例十一---触发器名称：Comparing average load today with average load of the same time yesterday (使用 time_shift 时间偏移量参数).

{server:system.cpu.load.avg(1h)}/{server:system.cpu.load.avg(1h,1d)}>2

This expression will fire if the average load of the last hour tops the average load of the same hour yesterday more than two times.

Hysteresis（迟滞,滞后）

简单的说触发器状态转变为problem须要一个条件，从problem转变回来还须要一个条件才行。通常触发器只须要不知足触发器为problem条件便可恢复。明白了么？不明白就看例子吧。
有时候触发器须要使用不一样的条件来表示不一样的状态，举个官网颇有趣的例子：机房温度正常稳定为15-20°，当温度超过20°，触发器值为problem，直到温度低于15°才会接触警报，异常会解除。别整这些没用的，咱们看实例.

为了达到这个效果，咱们须要使用以下触发器表达式:

示例1---触发器名称：Temperature in server room is too high

({TRIGGER.VALUE}=0&{server:temp.last(0)}>20)|({TRIGGER.VALUE}=1&{server:temp.last(0)}<15)

如上有两个小括号，前面一个表示触发异常的条件，后面一个表达式表示解除异常的条件。

注意：宏变量 {TRIGGER.VALUE}将会返回当前触发器的值

示例2---触发器名称：Free disk space is too low

Problem: 最近5分钟剩余磁盘空间小于10GB。（异常）

Recovery: 最近10分钟磁盘空间大于40GB。（恢复）

简单说即是一旦剩余空间小于10G就触发异常，而后接下来剩余空间必须大于40G才能解除这个异常，就算你剩余空间达到了39G（不在报警条件里）那也是没用的，有意思不！

({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10G) |({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40G)

结尾

这篇文章颇有必要细细读，很重要。

　　　　　　　　　　zabbix触发器依赖关系详解

概述

zabbix触发器能够设置依赖性，例如我配置了两个触发器，一个触发器定义www.ttlsa.com这个HOST是否在运行中，另外一个是www.ttlsa.com的网络是否通畅。假如网络出现故障，可是ttlsa服务器并未出现故障，咱们依旧会收到这两个触发器给到的故障通知。
如今的问题很明显，HOST是正常的，确定不但愿收到他的故障信息，由于它正常工做。因此在配置HOST触发器时，咱们须要增长依赖关系，依赖网络是否畅通这个触发器。一旦网络出现故障，将不会出发HOST故障的通知。单个触发器能够依赖于多个触发器。

触发器依赖要点

一台HOST的触发器能够依赖其余HOST的触发器，可是注意不要有死循环依赖。好比A依赖B，B依赖C，C又依赖A。一个圆圈，没完没了。以下是A依赖B，B又依赖A，根本依赖不了，有以下报错。
zabbix触发器依赖(1)

一个模板的触发器能够依赖另一个模板的触发器，例如模板A触发器依赖模板B触发器。一个HOST要连接A模板，那么它同时要连接A模板（由于模板A中的触发器依赖了模板B中的触发器），可是HOST能够单独连接模板B（B是被依赖）。在一个host单独连接template A，结果出现以下错误，因此别忘记了一块儿把template B也连接到HOST中。
zabbix触发器依赖(2)
模板中的触发器能够依赖HOST中的触发器。若是某个HOST连接这类模板，那么HOST建立的相应的触发器也一样会依赖那个HOST的触发器。举个官方的例子，某个模板中的一些触发器依赖了route/主机的触发器，凡事连接（理解为套用）了这个模板的机器都会依赖这些router/主机。说了那么多，其实就是继承了。
HOST中的触发器不能依赖模板中的触发器。

配置

编辑触发器，选择选项卡“dependencies”，点击Add，选择你须要依赖的触发器，以下图：

zabbix触发器依赖(3)

而后点击保存，能够看到触发器多了一个depend on

zabbix触发器依赖(4)

多个依赖实例

借用官方文档的示例，Host前面有个Router2，Router2前面有Router1，以下：

Zabbix - Router1 - Router2 - Host

若是Router1挂了，很明显Router2和Host连不上，咱们不但愿收到关于连不上Router2和HOST的通知，所以，咱们定义了以下依赖关系：

'Host is down' trigger depends on 'Router2 is down'trigger'Router2 is down' trigger depends on 'Router1 is down' trigger

在触发器将Host的状态改变为'Host is down'以前，它会检查host相关的依赖，这时候若是发现它依赖的触发器只要出现一个problem状态，那么当前触发器状态不会变化，这样一来action不会执行，报警通知sms/email天然也不会发送了。

zabbix会递归执行检测，若是router1或者router2有一个出现连不上，那么Host的触发器不会有任何的改变。

　　　　　　　　　　zabbix建立触发器trigger

1. 建立触发器

了解了什么触发器，接下来看下zabbix触发器怎么建立和配置，方法很简单，请你们往下读，有什么问题请留言。

建立触发器步骤:

点击Configuration（配置） → Hosts（主机）
点击hosts（主机）相关行的trigger
点击右上角的建立触发器（create trigger），你也能够修改列表中的触发器

在表单中输入相应的信息

2. 配置触发器

以下为触发器

zabbix触发器配置

参数介绍

参数	描述
Name	触发器名称. 名称能够包含宏变量： `{HOST.HOST}, {HOST.NAME}, {HOST.CONN}, {HOST.DNS}, {HOST.IP}, {ITEM.VALUE}, {ITEM.LASTVALUE}` and `{$MACRO}`. $1, $2…$9 能够被用来关联表达式的常量示例： name：Processor load above $1 on {HOST.NAME}” 表达式：system.cpu.load[percpu,avg1].last(0)}>5 会显示为：Processor load above 5 on ttlsa云服务器
Expression	计算触发器状态的逻辑表达式，这边设置为上一次值等于0
Multiple PROBLEM events generation	经过设置该选项，你能够在触发器产生problem的时候触发一个事件
Description	触发器的描述,通常name写的不清楚，这边能够具体描述这个触发器的做用，例如nginx当前离线，请处理等等。Zabbix 2.2版本开始，支持触发器名称。
URL	在Monitoring → Triggers中，能够看到URL而且能够点击，通常状况下他须要配合触发器ID来使用，在url中包含触发器ID（宏变量 {TRIGGER.ID}），这样能够直接点击到具体触发器中。
Severity	设置严重性级别,上图我设置为“灾难”,你能够相应的设置警告、严重等状态的触发器
Enabled	当前触发器是否启用

3. 触发器依赖

上图你们能够看到有个Dependencies，他是作什么的? 翻译为依赖，具体的用法咱们后面章节来说

　　　　zabbix触发器严重性定义Trigger severity

severity一般用来定义当前item的一个状态的严重性。咱们能够根据不一样的严重性来定义不一样的事件，例如报警，zabbix自带以下严重性定义。

Trigger severity表格

SEVERITY	DEFINITION	颜色
Not classified	未知.	灰色
Information	通常信息.	浅绿
Warning	警告	×××
Average	通常问题.	橙色
High	严重问题.	红色
Disaster	灾难,会带来损失的那种.	深红

severities 用途

可视化显示，不一样级别显示不一样颜色，例如通常严重性为绿色
声音报警,不一样的级别不一样声音.
使用用户自定义媒体报警，例如严重问题发短信，其余问题发送邮件。
根据严重性来定义是否报警

能够自定义触发器严重性以及颜色，请参考：customise trigger severity names and colours.

　　　　　　　　zabbix自定义触发器严重性　　　　

触发器严重性介绍

触发器严重性命名以及颜色定义均可以在zabbix web后台定义，点击Administration（管理） → General （常规）→ Trigger severities（触发器严重性）。这边定义好的颜色在每一个不一样主题/风格里面都是同样的。
全部系统默认的触发器名字在各国的语言包中都有翻译，可是你自定义的其余语言包不会给你翻译，由于在语言包里面没有这一个项目。那么怎么保证各国语言包里面都能相应的翻译自定义的严重性呢?
咱们知道zabbix默认定义了6个触发器严重性，分别为：Not classified、Information、Warning、Average、High、Disaster，有些人以为High很差理解或者以为描述不满意，想改为Important，请看以下操做：

设置触发器名称

点击Administration（管理） → General （常规）→ Trigger severities（触发器严重性），将High改成important，固然这里你也能够自定义你的颜色，咱们这边就再也不敖述了，修改完以后点击保存。

zabbix修改严重性名称

添加内容到frontend.po

# /data/site/monitor.ttlsa.com/locale/en_US/LC_MESSAGES/frontend.po
msgid "Important"msgstr "very Import"

[warning]备注：/data/site/monitor.ttlsa.com/是您zabbix站点根目录[/warning]

建立.mo文件

须要执行locale目录下的make_mo.sh文件，若是出现./make_mo.sh: line 4: msgfmt: command not found，那么请你先安装msgfmt

# yum install gettext

而后执行make_mo.sh

# ./make_mo.sh

效果

随意选择一个Host的触发器列表，看左边信息，请看以下图<

severities修改并翻译

在自定义触发器名称以前应该显示High的，这边被咱们修改为了Very Import。zabbix是一个多语言监控系统，若是你想切换到中文环境，那么你须要修改zh_CN下的frontend.po，而后make_mo.sh建立frontend.mo。不然将只会显示Important，如下：

severities未翻译

这边直接显示触发器的MSGID，由于你没翻译。

最后

6个触发器级别，名称随你修改，可是大多数状况下咱们都不须要修改，默认的挺好的，不是吗？非要自定义，我不拦你。

　　　　　　zabbix获取上一个值prev zabbix触发器函数

zabbix触发器方法prev用于获取item前一个返回值，与方法last(#2)是一样的意思

zabbix触发器方法prev - web界面

zabbix获取前一个返回值

以下是web界面提供的功能：

Previous value is > N
Previous value is < N
Previous value is = N
Previous value is NOT N

zabbix触发器方法prev - 实例

CPU前一个负载值大于0.7

{dd-pre-01:system.cpu.load[percpu,avg1].prev()}>0.7

或者使用last得到一样的效果

{dd-pre-01:system.cpu.load[percpu,avg1].last(#2)}>0.

zabbix触发器方法prev - 支持类型

它支持类型包括：float, int, str, text, log

　　　　　zabbix获取当前UNIX时间戳now zabbix触发器函数

获取当前UNIX时间戳，UNIX时间戳是什么？当前距离1970年1月1日00:00:00一共多少秒。使用zabbix触发器函数：now()，举一个简单的例子。

2020年1月1日0时0分0秒（UNIX时间戳：1577808000）到2020年2月1日0时0分0秒（UNIX时间戳：1580486400）之间，cpu1分钟负载大于1触发告警。例子意义不大，但愿你们触类旁通。

{ttlsa-server:system.cpu.load[all,avg1].last()}>1 and
{ttlsa-server:system.cpu.load[all,avg1].now()}>1577808000 and
{ttlsa-server:system.cpu.load[all,avg1].now()}<1580486400

　　　　　　zabbix取平均值avg zabbix触发器函数

zabbix触发器方法avg与上一节的abschange多了时间概念。上一节仅仅是取先后两个值对比，avg有以下取值方式：

最后N个值
最近XX时间，例如最近1h
以上1和2还要结合time_thift时间偏移参数，例如1h

zabbix-function-avg

zabbix触发器方法avg - web界面

以下是web界面提供的功能：

Average value of a period is < N
Average value of a period is > N
Average value of a period is = N
Average value of a period is NOT N

zabbix触发器方法avg - 实例

CPU负载最近一小时平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h)}=1

CPU负载昨天当前时间的上一小时平均值等于1，1d表示时间往前推移1天，你能够写1h，1m，10d，如今明白了time_thrift的用法了吧？

{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h,1d)}=1

CPU负载最近10次的平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10)}=1

昨天同一时间CPU负载最近10次的平均值等于1

{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10,1d)}=1

zabbix触发器方法avg - 支持类型

它支持类型包括：float, int，能平均的除了数字还有谁？

　　　　　　获取最大值max zabbix触发器函数

zabbix触发器函数max - 做用

有以下做用：

获取一个时间周期内最大值
获取几个返回值中的最大值
以上方法，时间往前推移1分钟，1小时，1天等等

zabbix触发器函数max - 对应web

文字以下

Maximum value for period T is > N
Maximum value for period T is < N
Maximum value for period T is = N
Maximum value for period T is NOT N

zabbix触发器函数max - 例子

语法：max (sec|#num,<time_shift>)

一个小时内cpu负载最大值超过10

{dd-pre-01:system.cpu.load[percpu,avg1].max(1h)}>10

cpu负载最近10个返回值，最大值超过10

{dd-pre-01:system.cpu.load[percpu,avg1].max(#10)}>10

　　　　　　　　　　最小值min zabbix触发器函数

功能和上一节将的max整好相反，咱们将结合max、min来一个更有意思的实例。

zabbix触发器函数min - 做用

，有以下做用：

获取一个时间周期内最小值
获取几个返回值中的最小值
以上方法，时间往前推移1分钟，1小时，1天等等

zabbix触发器函数min - 对应web

文字以下

Minimum value for period T is > N
Minimum valuefor period T is < N
Minimum value for period T is = N
Minimum value for period T is NOT N

zabbix触发器函数min - 例子

语法：min(sec|#num,<time_shift>)

一个小时内cpu负载最小值小于0.2

{dd-pre-01:system.cpu.load[percpu,avg1].min(1h)}<0.2

cpu负载最近10个返回值，最小值小于0.2

{dd-pre-01:system.cpu.load[percpu,avg1].min(#10)}<0.2

zabbix触发器函数min/max - 实例

触发器名称：Free disk space is too low

Problem: 最近5分钟剩余磁盘空间小于10GB。（异常）

Recovery: 最近10分钟磁盘空间大于40GB。（恢复）

讲解：简单说即是一旦剩余空间小于10G就触发异常，而后接下来剩余空间必须大于40G才能解除这个异常，就算你剩余空间达到了39G（不在报警条件里）那也是没用的.

({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,free].max(5m)}<10G)  or 
({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,free].min(10m)}<40G)

　　　　　　　　abschange先后差值 zabbix触发器函数

监控实战中，每一个同窗对触发器告警条件要求各不相同，so，zabbix提供了几十个方法提供使用。部分人对如下功能也不甚了解。接下来，我会一一讲解下图function与zabbix提供function的对应关系，以及他们的功能。

zabbix-function

zabbix取先后差值（绝对值）- abschange

以下是web界面提供的功能：

Absolute difference between last and previous value is = N

Absolute difference between last and previous value is > N

Absolute difference between last and previous value is < N

Absolute difference between last and previous value is NOT N

经过实例来一一了解它，例子也许很滑稽很不合理，可是你们能够触类旁通，它只是一个例子

若是（每核）CPU 1分钟负载浮动1（忽然增长1，1分钟后又下降1）

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}=1

若是（每核）CPU 1分钟负载浮动大于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}>1

若是（每核）CPU 1分钟负载浮动小于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<1

若是（每核）CPU 1分钟负载浮动不等于1

{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<>1

abschange支持类型

它支持类型包括：float, int, str, text, log，它不只仅支持数值，还支持字符串。若是取值为字符串，那么字符串相同值为0，不一样则为1

以下为主机名发生变动的触发器表达式

{ttlsa-web-01:system.hostname.abschange()}=1