从 IT 中断中学到的最佳监控实践

每一个运维监控工具,通常要追踪数十万个内部性能指标。学会对哪些事件进行告警以及监控确实须要花费想当长的一段时间。由于,并不是全部的指标等级都是一致。所以咱们须要摸索出一套简单的方法,便于管理全部指标,并且简单易学。如下为咱们总结的 Datadog 的一些实践经验。html

###监控目标ios

首先咱们应该了解咱们为何你要花费心力实现更好的监控? 如下三点为总结的监控目标:数据库

  1. 在客户及老板觉察以前发现问题服务器

  2. 了解系统以及应用的运行情况架构

  3. 尽量下降你的压力水平运维

###指标分类工具

在了解目标后,应该清楚各个指标的种类。如你的监控工具追踪了哪些指标 ? 常见的指标有:CPU 使用量,内存使用量,数据库或 Web 请求。指标的种类多种多样,可是全部指标均可纳入基本的两大类:工做指标以及资源指标。性能

####工做指标优化

通常来讲工做指标有两大类:网站

  1. 工做指标测量系统或应用生产的有价值的事物的量。例如,数据库每秒返回的查询数量,Web 服务器每秒发送的网页数量。由于,数据库的主要功能在于返回查询结果,Web 服务器则在于为网页提供服务。

  2. 应用带来的经济效益,好比收入。这种指标能够直观地追踪应用以及基础架构的可用性,便于了解其运行效率,所以更加有用。

####资源指标

资源是用于生产价值所消耗的事物。所以,资源指标用于测量完成某项工做、生产某些内容所消耗的事物的量。

你如果问“数据库使用了多少 CPU ?”,这种问题每每无益于断定应用的效用。由于通常的回答是:“ 我有足够的 CPU ”,或者 “ 个人 CPU 使用量已经到达极限了 ”。

对于内存,磁盘,网页带宽等资源的提问也是如此。一般,资源指标会用于容量规划,而非可用性管理。

###优化监控方案

了解了工做指标与资源指标以后,咱们能够进一步讨论最佳实践方案。

#####1.将关键指标分为工做或资源指标

审视关键指标,尤为是那些是你真正在乎的指标。再将它们归类为工做指标或资源指标。

#####2.仅为工做指标设置告警

分类完成以后(请务必花时间进行分类,这很重要),你须要肯定为哪些指标设置告警。事实上,你应该仅为工做指标设置告警。换言之,你应该为测量系统可用程度的指标设置告警。

不过,给指示应用宕机的首要资源指标设置告警也颇有益。好比,磁盘空间是一种资源指标。然而,若是磁盘空间耗尽了,整个应用就没法运转,所以,为这类指标设置告警也很重要。可是,整体而言,为资源指标设置告警的状况很是罕见。

#####3.仅为可操做的工做指标设置告警

针对上一条最佳实践的一点修正是:仅为可操做的工做指标设置告警。换言之,你应该为能够采起行动的工做指标设置告警。

例如,对于 Web 服务器而已,可操做的工做指标能够是每秒内无错误服务的网页数量。这之因此是可操做的工做指标,是由于若是 Web 服务器服务的网页数量为零,网站确定再也不运行,而是宕机了。这时候,你必须采起行动了。

没法操做的工做指标能够是 Web 服务器每秒服务的 404 页面数量。该指标之因此没法操做,是由于其彻底取决于访客的行为。若是他们访问许多不存在的 URL,那么确定会生成许多 404 页面。这并非说网站性能很差,而是访客的行为超出了预期。所以,你不该该为不可操做的工做指标设置告警。

#####4.按期回顾检查指标与告警

第四点,也多是最难坚持的一点,是按期地回顾并检查指标与告警。你能够一周一次,两周一次,或者一个月一次,但请必定要在繁忙的任务表中划出一些时间,与团队一块儿进行回顾。

###回到目标

如今,让咱们将这些最佳实践与前文提到的监控目标结合起来。请注意:将关键指标分类为工做指标或资源指标是一切的前提。

#####1. 在客户及老板觉察以前发现问题

仅为工做指标设置告警,能够避免一些无用的告警,从而达到更好的监控结果。

#####2. 尽量下降你的压力水平

仅为可操做的工做指标设置告警,由于你不打算得到没法控制的告警信息。

#####3. 了解系统以及应用的运行情况

按期回顾并检查指标与告警,能够对系统的运行情况与性能趋势有更深入的感知,从而方便性能调优。

经过这些最佳实践,能够加强你的监控策略。国内外有不少优秀的监控工具,如 ZabbixNagios 、Datadog 、阿里云 、监控宝、腾讯云等。此外 OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理全部 IT 事件,提高 IT 可靠性。 本文转自 OneAPM 官方博客

相关文章
相关标签/搜索