「路漫漫其修远兮,吾将上下而求索」,「转身」不见得华丽,但我必须「转身」,不要安逸于如今的运维情况。服务器
若是你运维一线人员,是否会遇到如下状况:微信
公司全部的服务器告警消息会塞满本身的整个邮箱,若是公司的运维团队有几我的到几十人不等,当你处理邮箱中的告警消息的时候,处理一半会发现问题已经解决了,这个现象很常见,会致使工做效率的降低。改善的方法有不少,好比团队内部多一些沟通,然而沟通的成本也是很是高的。解决问题应该从源头出发,治标不治本的方法仍是应该适当采起。也许你在创业团队工做,团队中只有一我的,可是也但愿你能读完本篇文章,等团队壮大以后也会有帮助!运维
单一的告警通知方式会麻木运维同窗的工做思惟,一天 24 小时接收的都是邮件或者短信的告警通知。咱们更但愿白天工做时间使用邮件、微信、APP 等轻量级的通知方式,晚上休息时间使用短信、电话等偏重的通知方式。这样不只白天可以提升工做效率,并且可以晚上好好休息,不用担忧告警疏漏。若是能有排班通知,那么就真正能「睡个好觉」了。 若是你是运维 Team Leader,是否会遇到如下状况:工具
若是你是团队的管理人员,是否会遇到如下状况:性能
团队一直在解决故障,但对系统性能没有总体的把握;你对团队、成员的工做量,工做效率没有全面的了解。你确定不但愿这样管理你的团队,不但愿团队重复解决某些事情,更不但愿由于这些问题让团队士气低落,以为工做没有干劲。事件
团队一直在重复解决某一故障,可是却由于缺乏一个好的分析工具,致使无用功重复执行。好比常常收到「127.0.0.1」服务器内存使用率超过90%,严重级别高’的告警消息,经过对告警消息分析,此告警消息在本月出现频率最高,此时是否可以根据此告警对服务器作出一些硬件上的调整来减小告警的噪声?内存
解决以上可能出现的问题,你须要:资源
合适通知体系get
合理的通知方式博客
健全的告警分析机制
合适的通知体系 ------- 你的锅你来背
根据不一样的主机组把告警发给不一样的一线成员,可有效解决告警分派的问题,而且可以使团队责任划分清晰。每一个人负责一部分服务器,出现问题以后,告警消息只会通知本身,避免对其余同事的工做形成干扰。那若是这位同事遗漏了告警怎么办?告警消息不被团队的其余人知晓,解决时间会存在严重的问题。这时须要一个有效的升级机制,告警在设置时间内不确认、不解决的时候,会升级到二线值班人员,二线通常都是领导级别的了,若是告警真的升级了,那你就…………。因此在第一时间接收到告警消息,第一时间解决掉是很是关键的,这时咱们就须要有多种通知方式,合理的通知方式。
合理的通知方式 ------- 对的时间赶上对的人
不要在错的时间赶上对的人。 当告警消息来了,选择一个好的通知方式是相当重要的。好比白天工做时间,告警消息的推送只须要经过微信、邮件的方式。而晚上下班时间休息时间,告警消息推送能够选择短信和电话两种方式进行通知,灵活的通知方式可以达到事半功倍的效果。告警通知很及时,那怎么衡量团队的工做效率、我的的工做效率呢?根据什么标准来衡量呢?这时有一个健全告警分析机制是很关键的。
健全的告警分析体系 ------- 真正认识你的团队
好的告警分析机制可以帮助管理者分析团队总体的工做状况,根据 MTTR 做为评判标准。经过告警分析可以分析出某一告警应用某段时间内处理状况。
根据告警内容分析也是颇有必要的,可以帮助团队管理者对资源进行适当的调整,工做重心的调整。
固然对团队成员的工做进行分析也是很是有必要的,OneAlert 对成员处理告警的分析即将上线。
健全的告警分析是一个运维管理团队必须的,咱们可以在其中发现不少的团队问题,而后进行适当的调整,把团队的总体 KPI 提升,士气提升!但愿本篇文章可以对你有用。
OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理全部IT事件,提高IT可靠性。想了解更多信息,请访问 OneAlert 官网 。 本文转自 OneAPM 官方博客