这样查看告警邮件要慢一点……

这样查看告警邮件要慢一点……

固然不是指像上图那样一边开着车听着歌,握着男/女友的手,一边查看告警邮件的时候要慢一点。缘由你们都懂的,我就不拆了(由于大家都是单身狗啊!单身狗啊!单身狗啊!)。这里要说的是,若是大家选择了用 OneAlert 来接收告警邮件,查看的时候可必定要慢一点,慢一点,再慢一点啊!为啥呢?html

######在你尚未用 OneAlert 的时候……ios

咱们责任心爆棚的运维菌们,为了让用户有更好的体验,为了系统不挂,为了避免被领导骂,为了升职加薪,为了迎娶白富美……一般会使用各类各样的监控工具来对系统性能进行全方位的监控,好比功能强大又免费的 NagiosZabbix。你想用它们来监测 CPU 使用率,磁盘利用率,网卡吞吐量等等。你设定好了阈值,想让它们在故障发生时给你发封邮件通知一下。而后,噩梦开始了……服务器

镜头一:初入职场的运维菌小张负责维护公司里的一台服务器。小张对她呵护备至,第一天就配置好了 Nagios,但愿能第一时间知道她哪不舒服了。某天半夜1点,她终于宕机了。告警邮件如约而至,然而早上7点起床睁眼抓起手机的小张却当场石化了。新邮件通知设置成了静音的他一共收到了:1台服务器x1条进程x1次/分钟发出告警x6小时x60分钟=360封邮件……小张草草扫了一眼,内容实在懒得看,快速点击所有勾选,一页一页地直接所有删除掉。然而这其中还夹杂着几封关于磁盘已写满的告警以及老板明天早上请喝茶的邮件……微信

镜头二:后来小张开始负责10台服务器的维护,每台服务器100条进程。某天机房停电了……看到第一封宕机告警邮件后小张当即打开 Nagios,关闭告警。然而接下来的十几分钟他并不孤单,由于他一共收到了:10台服务器x100条进程x1次/分钟发出告警x1分钟=1000封邮件……手机、电脑「bibibi」响个不停,邮件一封封地往邮箱里蹿。十几分钟后终于「bibi」完了,世界终于安静了下来。邮件量太大,小张仍是不看内容,直接快速点击所有勾选,一页一页不停地删除邮件……然而这其中仍旧夹杂着几封其余类型的告警以及重要的工做邮件。运维

镜头三:如今的小张手下已经有100台服务器了,每台服务器仍是100条进程。某天小张正在开会的时候,机房又停电了……收邮件的过程太过残酷,就不详述了。不过此次小张吸收了以前的教训,决定翻翻看里面有没有其余告警或者工做邮件。翻了几十封后,小张呵呵哒了,决定仍是直接一页一页全都删了吧。其余的告警通知和重要的工做邮件也只好一块拜拜了。机器学习

小张很苦恼,发现本身绝大部分精力都耗费在了这些告警噪音上不说,好多正事儿还都被耽误了。但又不能因噎废食,彻底把告警系统停用掉。小张该怎么办?工具

######发现问题了吗?性能

监控工具自带的告警系统其实并不实用,它只会按照你以前设置好的规则机械性地持续发出告警,不会考虑告警信息的重复性、关联性,更不会考虑你当前是否方便查收邮件,是否是须要通知其余同事。一系列过多,重复,冗余的告警通知造成的告警风暴,不只会使咱们的运维人员产生告警疲劳,疲于应对成百上千封邮件,只想赶快把它们都删除掉。还会所以漏掉一些重要的告警,致使故障不能及时解决。平常工做也会受到影响。学习

######若是你用了 OneAlert!人工智能

若是小张使用了「OneAlert 告警平台」来对监控工具发出的告警进行处理,将会是怎样的呢?

由于 OneAlert 会按照时间序列对告警进行压缩,初入职场的小张会收到:1台服务器x1条进程x1次/分钟发出告警x6小时x60分钟x1分钟=1封告警邮件;

由于 OneAlert 会按照关联关系对告警进行压缩,后来的小张会收到:10台服务器x100条进程x1次/分钟发出告警x1分钟=10封邮件;

由于 OneAlert 会按照时间序列和关联关系对告警进行压缩,如今的小张会收到:100台服务器x100条进程x1次/分钟发出告警x N分钟x1分钟=100封邮件。

看到没,邮件量瞬间就少了99%!留下来的都是通过压缩合并后的告警信息,每一条都很重要,因此查看的时候必定要慢一点哦~

(机器学习&人工智能压缩模式正在开发 ing,敬请期待~)

可是小张又有疑问了:每一个故障你只通知我一次,感受很不靠谱呀,万一我又恰好错过了那一次,岂不是完蛋了?!

没错,监控工具自带的告警系统一般只支持邮件通知,顶多再加个短信通知。可是 OneAlert 不一样!邮件通知后没反应?不要紧,两分钟后再经过微信推一次。仍是没反应?网断了?不要紧,两分钟后经过短信再推一次。还没反应?不要紧,两分钟后再打电话通知一下。仍是没反应?那你已经关机或是睡着了吧,这个时候恐怕再发100封邮件也叫不醒你了。。何况为了能在第一时间解决故障,咱们也来不及等到你醒了再去处理了。赶忙推送给小李吧!四种方式挨个儿通知一遍,小李也睡了?接着推送给小王。如此升级,直到团队内有人响应为止。

经过多种方式的可靠通知以及告警信息的有序分发,及时响应故障的重担再也不是彻底压在一我的身上了,可以确保整个团队能在第一时间内采起应对措施。如今你还认为监控工具一封又一封没完没了的邮件是必要的吗?

因此,用了 OneAlert 后,你收到的都将会是重要的,不重复的,须要帮助队友解决的告警邮件。查看的时候必定不要草草了事,匆匆删除,要慢一点,仔细看好了再处理呀!~

(PS:一想到这么实用又免费的产品还有好多运维菌都还没开始用呢,就好捉急啊!好想问问叶璇和郭富城他们的降头是在哪团购的,我也好想买一个下给屏幕前的各位小张,让大家一看到这儿就忍不住要当即猛戳无偿使用体验一把啊!)

无偿使用←请猛戳它!

无偿使用←请猛戳它!

无偿使用←请猛戳它!

相关文章
相关标签/搜索