运维不容错过的4个关键指标!

很难说,生活在这个数据大爆炸的时代对运维同窗是福仍是祸。灵活的监控系统、开放 API 和易用的数据可视化资源能够将任何想要的数据图表化地显示出来,可是,过多的数据容易产生干扰,反而不利于具体信息提取和操做。html

关于监控哪些指标,以及为何要从系统化的角度出发,咱们进行过深刻的思考。本文中,咱们想与你们分享一些具体的指标和准则,进一步帮助团队衡量并提升运维性能。如下整理了4个关键性运维指标:运维

告警事件数量

若是团队中的事件数量呈现上升趋势,那么颇有多是哪里出了问题:要么是基础设施有故障,要么是监控工具配置错误须要调整。工具

随着公司的发展,组织结构会调整,同时业务产品也会不断升级,配套监控也会同步上线,告警事件数量会急剧增长。「咱们浪费了大量时间来关闭冗余报警。」--相信不少同窗都会有相似的体会。告警事件数量是可控的:性能

  • 告警数量可统计,如这周告警数量是多少,与新发布的产品系统有没有关系,发生哪些问题?优化

  • 告警数量是可操做的,意味着每个告警都是有意义而且是须要处理和操做的,若是仅仅是瞅一眼的数据,请不要经过告警方式。例如100+机器时,每台机器的「CPU 使用率高」告警是没有啥用的,你知道机器 CPU 使用率高后,你能作什么操做呢?你可能直接忽略掉,当数量大到你把须要处理的告警也忽略掉时,告警就失去了意义。相似指标彻底能够经过周报/日报进行数据的性能分析,而不是告警。spa

平均解决事件( MTTR )

解决时间是衡量业务准备的最佳标准。当事件发生时,你的团队须要多长时间才能解决?
宕机不只会影响你的收入,还会伤害客户用户体验和忠诚度,因此确保团队对全部事件能够快速响应极为关键。htm

  • 全球500强企业平均每周出现严重故障时间长达1.6小时。进程

  • 平均每小时折合损失$96,000。事件

固然,跟踪解决时间当然重要,但对其进行规范每每很难,企业能够根据环境的复杂性、团队和基础设施的责任制、行业及其余因素,进一步观测 MTTR 的差别。可是,规范化的操做手册、自动化的基础设施管理、可靠的告警升级策略都有助于减小事件,和提高 MTTR。资源

优秀的团队减小事件数量,并及时解决( MTTR ),因此平均解决事件须要和上面告警数量同样,须要记录和统计分析,目前大多监控工具每每不具有相似能力,若是没有精力或者资源自行开发的话,咱们就建议使用第三方平台OneAlert

有关如何减小事件数量,避免告警疲劳的事情,后续将会有独立文章进行发布。

平均响应时间( MTTA )

若是说平均解决时间是结果,那么平均响应时间就是重要的过程指标,这一点每每被大多团队忽略掉。能够理解为告警越快发现,越快有人响应,就可以越快的解决(更好的MTTR)。

运维不容错过的4个关键指标

提高 MTTA 的核心是找对人、找到人。上图中若是02:01可以及时通知到位就能够节省至少4个小时时间。

提及来简单,实际上找对人有些工做(只1人运维的请忽略),通常是从职责责任制、协调机制、工做进程透明、工做量和时间可衡量等几点进行,后面针对「有序分派」再补充一篇。

除了以上机制,还有一点,就是须要记录谁何时确认响应告警,并作了哪些处理,可以持续跟踪,以及统计分析。

响应时间很是重要,由于它能帮助你了解哪些团队和我的处于随叫随到的状态。快速响应时间是一个战备文化的表明,你会发现具有快响应观念和工具的团队每每能够更快地修复事件。

若是使用像 OneAlert 的事件管理系统,[升级超时]有助于推动响应目标。例如,若是你但愿全部事件都应该在5分钟内回复,能够将超时设置为5分钟,从而确保下一个接收人会收到提醒。再根据团队的总体表现,来决定是否须要调整目标,而后再跟踪升级事件的数量。

升级

对于大多数使用事件管理工具的组织而言,告警升级是一种异常现象,该迹象代表首次应该响应的时候,没法及时应对事件,或许相关工具和人员技能失效。升级策略是事件管理的必须,各个团队应努力推进升级,实现升级事件数量的降低。

优秀的运维团队须要创建起有效的一线、二线、甚至三线响应机制,告警及时通知到一线,若是一线没有及时处理,能够自动升级至二线运维,保障每个重要事件可以获得及时响应和处理。

有些状况下,升级是标准做业实践的一部分。例如,你可能有一个 NOC,一线支持团队或者自动修复工具,可根据内容来升级或分诊输入事件。这种状况下,一线更多像一个路由转发器,能够经过人工+工具自动化方式实现。

示例分析

运维不容错过的4个关键指标
这是某个团队一个月的告警数据剖析:

  • 告警数量在11-18前相对稳健,平均在3-5个告警。第3周告警日新月异,缘由是新的业务上线,引起突增。通过周回顾,优化监控策略,在第4周通过初步优化,告警数量有所下降,运维团队工做初见成效,还须要继续优化。

  • 告警响应时间 MTTA ,基本上都可以比较好的响应,基本在5分钟内响应。说明整个团队的响应及时率是不错的。同时也看到在第三、4周六的时候,明显的响应时间延迟较大,说明一个问题,周末的支撑工做有提高空间。

  • 恢复时间 MTTR ,基本保持在20分钟左右,说明恢复比较及时,可是也有可能存在事件无需关注,自动恢复。后者须要针对事件的类型、根源进一步分析,后续文章再剖析。

  • 升级,目前该团队基本上是5分钟升级,因此会看到在大部分问题能在5分钟内响应完成。

小结

致力减小告警数量、及时响应 MTTA 、若是不能及时响应,可以升级处理,最终提高解决时间 MTTR,4个核心关键指标是运维支撑工做很是关键的指标。

运维是结合管理流程、工具、人员三方面的综合化工做,OneAlert 指望构建一个告警平台,可以帮助运维同窗更有效率的完成支撑工做。

OneAlert 是北京蓝海讯通科技股份有限公司旗下产品,中国首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理全部IT事件,提高IT可靠性。想了解更多信息,请访问 OneAlert 官网

相关文章
相关标签/搜索