概述:触发器中的表达式使用很灵活,咱们能够建立一个复杂的逻辑测试监控,触发器表达式形式以下:node
{<server>:<key>.<function>(<parameter>)}<operator><constant>
{主机:key.函数(参数)}<表达式>常数,具体的例子,请接着往下走,很简单nginx
Functions函数:触发器functions能够引用检索到的值,当前时间或者其余元素。触发器表达式支持的function完整列表请点击官网地址 supported functionsweb
Function参数----大多数数值functions可使用秒来做为参数。你可使用前缀“#”来表示它有不一样的含义express
FUNCTION CALL | 描述 |
---|---|
sum(600) | 600秒内的总和 |
sum(#5) | 最新5个值的和 |
last函数使用不一样的参数将会获得不一样的值,#2表示倒数第二新的数据。例入从老到最新值为1,2,3,4,5,6,7,8,9,10,last(#2)获得的值为9,last(#9)获得的值为2。last函数必须包含参数。
AVG,count,last,min和max函数还支持额外的参数,以秒为单位的参数time_shift(时间偏移量)。例如avg(1h,1d),那么将会获取到昨天的1小时内的平均数据。windows
[warning]备注:触发器表达式须要使用history历史数据来计算,若是history不可用(time_shift时间偏移量参数没法使用),所以history记录必定要保留长久一点,至少要保留须要用的记录。[/warning]
触发器表达式可使用单位符号来替代大数字,例如5m替代300,或者1d替代86400,1k替代1024字节等等。服务器
优先级 | 操做 | 定义 |
---|---|---|
1 | / | 除 |
2 | * | 乘 |
3 | - | 减 |
4 | + | 加 |
5 | < | 小于. 用法以下: A<B ⇔ (A<=B-0.000001) |
6 | > | 大于. 用法以下: A>B ⇔ (A>=B+0.000001) |
7 | # | 不等于.用法以下: A#B ⇔ (A<=B-0.000001) | (A>=B+0.000001) |
8 | = | 等于. T用法以下: A=B ⇔ (A>B-0.000001) & (A<B+0.000001) |
9 | & | 逻辑与 |
10 | | | 逻辑或 |
触发器示例网络
{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5
触发器说明:app
www.zabbix.com:host名称frontend
system.cpu.load[all,avg1]:item值,一份内cpu平均负载值tcp
last(0):最新值
>5:最新值大于5
如上所示,www.zabbix.com这个主机的监控项,最新的CPU负载值若是大于5,那么表达式会返回true,这样一来触发器状态就改变为“problem”了。
{www.zabbix.com:system.cpu.load[all,avg1].last(0)}>5|{www.zabbix.com:system.cpu.load[all,avg1].min(10m)}>2
当前cpu负载大于5或者最近10份内的cpu负载大于2,那么表达式将会返回true.
{www.zabbix.com:vfs.file.cksum[/etc/passwd].diff(0)}>0
/etc /passwd最新的checksum与上一次获取到的checksum不一样,表达式将会返回true. 咱们可使用一样的方法监控系统重要的配置文件,例如/etc/passwd,/etc/inetd.conf等等。这些zabbix通常都会自带,没带 的你本身加上吧。
{www.zabbix.com:net.if.in[eth0,bytes].min(5m)}>100K
当前主机网卡eth0最后5分钟内接收到的流量超过100KB那么触发器表达式将会返回true
{smtp1.zabbix.com:net.tcp.service[smtp].last(0)}=0&{smtp2.zabbix.com:net.tcp.service[smtp].last(0)}=0
当smtp1.zabbix.com和smtp2.zabbix.com两台主机上的SMTP服务器都离线,表达式将会返回true.
{zabbix.zabbix.com:agent.version.str("beta8")}=1
若是当前zabbix agent版本包含beta8(假设当前版本为1.0beta8),这个表达式会返回true.
{zabbix.zabbix.com:icmpping.count(30m,0)}>5
如上表达式表示最近30分钟zabbix.zabbix.com这个主机超过5次不可到达。
{zabbix.zabbix.com:tick.nodata(3m)}=1
tick 为Zabbix trapper类型,首先咱们要定义一个类型为Zabbix trapper,key为tick的item。咱们使用zabbix_sender按期发送数据给tick,若是在3分钟内还未收到 zabbix_sender发送来的数据,那么表达式返回一个true,与此同时触发器的值变为“PROBLEM”。
{zabbix:system.cpu.load[all,avg1].min(5m)}>2&{zabbix:system.cpu.load[all,avg1].time(0)}>000000&{zabbix:system.cpu.load[all,avg1].time(0)}<060000
只有在凌晨0点到6点整,最近5分钟内cpu负载大于2,表达式返回true,触发器的状态变动为“problem”
{MySQL_DB:system.localtime.fuzzytime(10)}=0
主机MySQL_DB当前服务器时间若是与zabbix server之间的时间相差10秒以上,表达式返回true,触发器状态改变为“problem”
{server:system.cpu.load.avg(1h)}/{server:system.cpu.load.avg(1h,1d)}>2
This expression will fire if the average load of the last hour tops the average load of the same hour yesterday more than two times.
简单的说触发器状态转变为problem须要一个条件,从problem转变回来还须要一个条件才行。通常触发器只须要不知足触发器为problem条件便可恢复。明白了么?不明白就看例子吧。
有时候触发器须要使用不一样的条件来表示不一样的状态,举个官网颇有趣的例子:机房温度正常稳定为15-20°,当温度超过20°,触发器值为problem,直到温度低于15°才会接触警报,异常会解除。别整这些没用的,咱们看实例.
为了达到这个效果,咱们须要使用以下触发器表达式:
({TRIGGER.VALUE}=0&{server:temp.last(0)}>20)|({TRIGGER.VALUE}=1&{server:temp.last(0)}<15)
如上有两个小括号,前面一个表示触发异常的条件,后面一个表达式表示解除异常的条件。
注意:宏变量 {TRIGGER.VALUE}将会返回当前触发器的值
Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)
Recovery: 最近10分钟磁盘空间大于40GB。(恢复)
简单说即是一旦剩余空间小于10G就触发异常,而后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的,有意思不!
({TRIGGER.VALUE}=0&{server:vfs.fs.size[/,free].max(5m)}<10G) |({TRIGGER.VALUE}=1&{server:vfs.fs.size[/,free].min(10m)}<40G)
结尾
这篇文章颇有必要细细读,很重要。
zabbix触发器能够设置依赖性,例如我配置了两个触发器,一个触发器定义www.ttlsa.com这个HOST是否在运行中,另外一个是www.ttlsa.com的网络是否通畅。假如网络出现故障,可是ttlsa服务器并未出现故障,咱们依旧会收到这两个触发器给到的故障通知。
如今的问题很明显,HOST是正常的,确定不但愿收到他的故障信息,由于它正常工做。因此在配置HOST触发器时,咱们须要增长依赖关系,依赖网络是否畅通这个触发器。一旦网络出现故障,将不会出发HOST故障的通知。单个触发器能够依赖于多个触发器。
一台HOST的触发器能够依赖其余HOST的触发器,可是注意不要有死循环依赖。好比A依赖B,B依赖C,C又依赖A。一个圆圈,没完没了。以下是A依赖B,B又依赖A,根本依赖不了,有以下报错。
zabbix触发器依赖(1)
一个模板的触发器能够依赖另一个模板的触发器,例如模板A触发器依赖模板B触发器。一个HOST要连接A模板,那么它同时要连接A模板(由于模 板A中的触发器依赖了模板B中的触发器),可是HOST能够单独连接模板B(B是被依赖)。在一个host单独连接template A,结果出现以下错误,因此别忘记了一块儿把template B也连接到HOST中。
zabbix触发器依赖(2)
模板中的触发器能够依赖HOST中的触发器。若是某个HOST连接这类模板,那么HOST建立的相应的触发器也一样会依赖那个HOST的触发器。 举个官方的例子,某个模板中的一些触发器依赖了route/主机的触发器,凡事连接(理解为套用)了这个模板的机器都会依赖这些router/主机。说了 那么多,其实就是继承了。
HOST中的触发器不能依赖模板中的触发器。
编辑触发器,选择选项卡“dependencies”,点击Add,选择你须要依赖的触发器,以下图:
zabbix触发器依赖(3)
而后点击保存,能够看到触发器多了一个depend on
zabbix触发器依赖(4)
借用官方文档的示例,Host前面有个Router2,Router2前面有Router1,以下:
Zabbix - Router1 - Router2 - Host
若是Router1挂了,很明显Router2和Host连不上,咱们不但愿收到关于连不上Router2和HOST的通知,所以,咱们定义了以下依赖关系:
'Host is down' trigger depends on 'Router2 is down'trigger'Router2 is down' trigger depends on 'Router1 is down' trigger
在触发器将Host的状态改变为'Host is down'以前,它会检查host相关的依赖,这时候若是发现它依赖的触发器只要出现一个problem状态,那么当前触发器状态不会变化,这样一来action不会执行,报警通知sms/email天然也不会发送了。
zabbix会递归执行检测,若是router1或者router2有一个出现连不上,那么Host的触发器不会有任何的改变。
了解了什么触发器,接下来看下zabbix触发器怎么建立和配置,方法很简单,请你们往下读,有什么问题请留言。
建立触发器步骤:
点击Configuration(配置) → Hosts(主机)
点击hosts(主机)相关行的trigger
点击右上角的建立触发器(create trigger),你也能够修改列表中的触发器
在表单中输入相应的信息
以下为触发器
zabbix触发器配置
参数介绍
参数 | 描述 |
---|---|
Name | 触发器名称. 名称能够包含宏变量: {HOST.HOST}, {HOST.NAME}, {HOST.CONN}, {HOST.DNS}, {HOST.IP}, {ITEM.VALUE}, {ITEM.LASTVALUE} and {$MACRO} .$1, $2…$9 能够被用来关联表达式的常量 示例: name:Processor load above $1 on {HOST.NAME}” 表达式:system.cpu.load[percpu,avg1].last(0)}>5 会显示为:Processor load above 5 on ttlsa云服务器 |
Expression | 计算触发器状态的逻辑表达式,这边设置为上一次值等于0 |
Multiple PROBLEM events generation | 经过设置该选项,你能够在触发器产生problem的时候触发一个事件 |
Description | 触发器的描述,通常name写的不清楚,这边能够具体描述这个触发器的做用,例如nginx当前离线,请处理等等。Zabbix 2.2版本开始,支持触发器名称。 |
URL | 在Monitoring → Triggers中,能够看到URL而且能够点击,通常状况下他须要配合触发器ID来使用,在url中包含触发器ID(宏变量 {TRIGGER.ID}),这样能够直接点击到具体触发器中。 |
Severity | 设置严重性级别,上图我设置为“灾难”,你能够相应的设置警告、严重等状态的触发器 |
Enabled | 当前触发器是否启用 |
上图你们能够看到有个Dependencies,他是作什么的? 翻译为依赖,具体的用法咱们后面章节来说
severity一般用来定义当前item的一个状态的严重性。咱们能够根据不一样的严重性来定义不一样的事件,例如报警,zabbix自带以下严重性定义。
SEVERITY | DEFINITION | 颜色 |
---|---|---|
Not classified | 未知. | 灰色 |
Information | 通常信息. | 浅绿 |
Warning | 警告 | ××× |
Average | 通常问题. | 橙色 |
High | 严重问题. | 红色 |
Disaster | 灾难,会带来损失的那种. | 深红 |
可视化显示,不一样级别显示不一样颜色,例如通常严重性为绿色
声音报警,不一样的级别不一样声音.
使用用户自定义媒体报警,例如严重问题发短信,其余问题发送邮件。
根据严重性来定义是否报警
能够自定义触发器严重性以及颜色,请参考:customise trigger severity names and colours.
触发器严重性介绍
触发器严重性命名以及颜色定义均可以在zabbix web后台定义,点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性)。这边定义好的颜色在每一个不一样主题/风格里面都是同样的。
全部系统默认的触发器名字在各国的语言包中都有翻译,可是你自定义的其余语言包不会给你翻译,由于在语言包里面没有这一个项目。那么怎么保证各国语言包里面都能相应的翻译自定义的严重性呢?
咱们知道zabbix默认定义了6个触发器严重性,分别为:Not classified、Information、Warning、Average、High、Disaster,有些人以为High很差理解或者以为描述不满意,想改为Important,请看以下操做:
点击Administration(管理) → General (常规)→ Trigger severities(触发器严重性),将High改成important,固然这里你也能够自定义你的颜色,咱们这边就再也不敖述了,修改完以后点击保存。
zabbix修改严重性名称
# /data/site/monitor.ttlsa.com/locale/en_US/LC_MESSAGES/frontend.po msgid "Important"msgstr "very Import"
须要执行locale目录下的make_mo.sh文件,若是出现./make_mo.sh: line 4: msgfmt: command not found,那么请你先安装msgfmt
# yum install gettext
而后执行make_mo.sh
# ./make_mo.sh
效果
随意选择一个Host的触发器列表,看左边信息,请看以下图<
severities修改并翻译
在 自定义触发器名称以前应该显示High的,这边被咱们修改为了Very Import。zabbix是一个多语言监控系统,若是你想切换到中文环 境,那么你须要修改zh_CN下的frontend.po,而后make_mo.sh建立frontend.mo。不然将只会显示Important,如 下:
severities未翻译
这边直接显示触发器的MSGID,由于你没翻译。
6个触发器级别,名称随你修改,可是大多数状况下咱们都不须要修改,默认的挺好的,不是吗?非要自定义,我不拦你。
zabbix触发器方法prev用于获取item前一个返回值,与方法last(#2)是一样的意思
zabbix获取前一个返回值
以下是web界面提供的功能:
Previous value is > N Previous value is < N Previous value is = N Previous value is NOT N
zabbix触发器方法prev - 实例
CPU前一个负载值大于0.7
{dd-pre-01:system.cpu.load[percpu,avg1].prev()}>0.7
或者使用last得到一样的效果
{dd-pre-01:system.cpu.load[percpu,avg1].last(#2)}>0.
zabbix触发器方法prev - 支持类型
它支持类型包括:float, int, str, text, log
获取当前UNIX时间戳,UNIX时间戳是什么?当前距离1970年1月1日00:00:00一共多少秒。使用zabbix触发器函数:now(),举一个简单的例子。
2020年1月1日0时0分0秒(UNIX时间戳:1577808000)到2020年2月1日0时0分0秒(UNIX时间戳:1580486400)之间,cpu1分钟负载大于1触发告警。例子意义不大,但愿你们触类旁通。
{ttlsa-server:system.cpu.load[all,avg1].last()}>1 and {ttlsa-server:system.cpu.load[all,avg1].now()}>1577808000 and {ttlsa-server:system.cpu.load[all,avg1].now()}<1580486400
zabbix触发器方法avg与上一节的abschange多了时间概念。上一节仅仅是取先后两个值对比,avg有以下取值方式:
最后N个值
最近XX时间,例如最近1h
以上1和2还要结合time_thift时间偏移参数,例如1h
zabbix-function-avg
以下是web界面提供的功能:
Average value of a period is < N Average value of a period is > N Average value of a period is = N Average value of a period is NOT N
zabbix触发器方法avg - 实例
CPU负载最近一小时平均值等于1
{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h)}=1
CPU负载昨天当前时间的上一小时平均值等于1,1d表示时间往前推移1天,你能够写1h,1m,10d,如今明白了time_thrift的用法了吧?
{dd-pre-01:system.cpu.load[percpu,avg1].avg(1h,1d)}=1
CPU负载最近10次的平均值等于1
{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10)}=1
昨天同一时间CPU负载最近10次的平均值等于1
{dd-pre-01:system.cpu.load[percpu,avg1].avg(#10,1d)}=1
zabbix触发器方法avg - 支持类型
它支持类型包括:float, int,能平均的除了数字还有谁?
有以下做用:
获取一个时间周期内最大值
获取几个返回值中的最大值
以上方法,时间往前推移1分钟,1小时,1天等等
文字以下
Maximum value for period T is > N Maximum value for period T is < N Maximum value for period T is = N Maximum value for period T is NOT N
zabbix触发器函数max - 例子
语法:max (sec|#num,<time_shift>)
一个小时内cpu负载最大值超过10
{dd-pre-01:system.cpu.load[percpu,avg1].max(1h)}>10
cpu负载最近10个返回值,最大值超过10
{dd-pre-01:system.cpu.load[percpu,avg1].max(#10)}>10
功能和上一节将的max整好相反,咱们将结合max、min来一个更有意思的实例。
,有以下做用:
获取一个时间周期内最小值
获取几个返回值中的最小值
以上方法,时间往前推移1分钟,1小时,1天等等
文字以下
Minimum value for period T is > N Minimum valuefor period T is < N Minimum value for period T is = N Minimum value for period T is NOT N
zabbix触发器函数min - 例子
语法:min(sec|#num,<time_shift>)
一个小时内cpu负载最小值小于0.2
{dd-pre-01:system.cpu.load[percpu,avg1].min(1h)}<0.2
cpu负载最近10个返回值,最小值小于0.2
{dd-pre-01:system.cpu.load[percpu,avg1].min(#10)}<0.2
zabbix触发器函数min/max - 实例
触发器名称:Free disk space is too low
Problem: 最近5分钟剩余磁盘空间小于10GB。(异常)
Recovery: 最近10分钟磁盘空间大于40GB。(恢复)
讲解:简单说即是一旦剩余空间小于10G就触发异常,而后接下来剩余空间必须大于40G才能解除这个异常,就算你剩余空间达到了39G(不在报警条件里)那也是没用的.
({TRIGGER.VALUE}=0 and {server:vfs.fs.size[/,free].max(5m)}<10G) or ({TRIGGER.VALUE}=1 and {server:vfs.fs.size[/,free].min(10m)}<40G)
监控实战中,每一个同窗对触发器告警条件要求各不相同,so,zabbix提供了几十个方法提供使用。部分人对如下功能也不甚了解。接下来,我会一一讲解下图function与zabbix提供function的对应关系,以及他们的功能。
zabbix-function
以下是web界面提供的功能:
Absolute difference between last and previous value is = N
Absolute difference between last and previous value is > N
Absolute difference between last and previous value is < N
Absolute difference between last and previous value is NOT N
经过实例来一一了解它,例子也许很滑稽很不合理,可是你们能够触类旁通,它只是一个例子
若是(每核)CPU 1分钟负载浮动1(忽然增长1,1分钟后又下降1)
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}=1
若是(每核)CPU 1分钟负载浮动大于1
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}>1
若是(每核)CPU 1分钟负载浮动小于1
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<1
若是(每核)CPU 1分钟负载浮动不等于1
{ttlsa-web-01:system.cpu.load[percpu,avg1].abschange()}<>1
abschange支持类型
它支持类型包括:float, int, str, text, log,它不只仅支持数值,还支持字符串。若是取值为字符串,那么字符串相同值为0,不一样则为1
以下为主机名发生变动的触发器表达式
{ttlsa-web-01:system.hostname.abschange()}=1