从 IT 中断中学到的最佳监控实践

时间 2019-11-17

标签中断学到最佳监控实践繁體版

原文原文链接

每一个运维监控工具，通常要追踪数十万个内部性能指标。学会对哪些事件进行告警以及监控确实须要花费想当长的一段时间。由于，并不是全部的指标等级都是一致。所以咱们须要摸索出一套简单的方法，便于管理全部指标，并且简单易学。如下为咱们总结的 Datadog 的一些实践经验。html

###监控目标ios

首先咱们应该了解咱们为何你要花费心力实现更好的监控? 如下三点为总结的监控目标：数据库

在客户及老板觉察以前发现问题服务器
了解系统以及应用的运行情况架构
尽量下降你的压力水平运维

###指标分类工具

在了解目标后，应该清楚各个指标的种类。如你的监控工具追踪了哪些指标 ? 常见的指标有：CPU 使用量，内存使用量，数据库或 Web 请求。指标的种类多种多样，可是全部指标均可纳入基本的两大类：工做指标以及资源指标。性能

####工做指标优化

通常来讲工做指标有两大类：网站

工做指标测量系统或应用生产的有价值的事物的量。例如，数据库每秒返回的查询数量，Web 服务器每秒发送的网页数量。由于，数据库的主要功能在于返回查询结果，Web 服务器则在于为网页提供服务。
应用带来的经济效益，好比收入。这种指标能够直观地追踪应用以及基础架构的可用性，便于了解其运行效率，所以更加有用。

####资源指标

资源是用于生产价值所消耗的事物。所以，资源指标用于测量完成某项工做、生产某些内容所消耗的事物的量。

你如果问“数据库使用了多少 CPU ?”，这种问题每每无益于断定应用的效用。由于通常的回答是：“ 我有足够的 CPU ”，或者 “ 个人 CPU 使用量已经到达极限了 ”。

对于内存，磁盘，网页带宽等资源的提问也是如此。一般，资源指标会用于容量规划，而非可用性管理。

###优化监控方案

了解了工做指标与资源指标以后，咱们能够进一步讨论最佳实践方案。

#####1.将关键指标分为工做或资源指标

审视关键指标，尤为是那些是你真正在乎的指标。再将它们归类为工做指标或资源指标。

#####2.仅为工做指标设置告警

分类完成以后（请务必花时间进行分类，这很重要），你须要肯定为哪些指标设置告警。事实上，你应该仅为工做指标设置告警。换言之，你应该为测量系统可用程度的指标设置告警。

不过，给指示应用宕机的首要资源指标设置告警也颇有益。好比，磁盘空间是一种资源指标。然而，若是磁盘空间耗尽了，整个应用就没法运转，所以，为这类指标设置告警也很重要。可是，整体而言，为资源指标设置告警的状况很是罕见。

#####3.仅为可操做的工做指标设置告警

针对上一条最佳实践的一点修正是：仅为可操做的工做指标设置告警。换言之，你应该为能够采起行动的工做指标设置告警。

例如，对于 Web 服务器而已，可操做的工做指标能够是每秒内无错误服务的网页数量。这之因此是可操做的工做指标，是由于若是 Web 服务器服务的网页数量为零，网站确定再也不运行，而是宕机了。这时候，你必须采起行动了。

没法操做的工做指标能够是 Web 服务器每秒服务的 404 页面数量。该指标之因此没法操做，是由于其彻底取决于访客的行为。若是他们访问许多不存在的 URL，那么确定会生成许多 404 页面。这并非说网站性能很差，而是访客的行为超出了预期。所以，你不该该为不可操做的工做指标设置告警。

#####4.按期回顾检查指标与告警

第四点，也多是最难坚持的一点，是按期地回顾并检查指标与告警。你能够一周一次，两周一次，或者一个月一次，但请必定要在繁忙的任务表中划出一些时间，与团队一块儿进行回顾。

###回到目标

如今，让咱们将这些最佳实践与前文提到的监控目标结合起来。请注意：将关键指标分类为工做指标或资源指标是一切的前提。

#####1. 在客户及老板觉察以前发现问题

仅为工做指标设置告警，能够避免一些无用的告警，从而达到更好的监控结果。

#####2. 尽量下降你的压力水平

仅为可操做的工做指标设置告警，由于你不打算得到没法控制的告警信息。

#####3. 了解系统以及应用的运行情况

按期回顾并检查指标与告警，能够对系统的运行情况与性能趋势有更深入的感知，从而方便性能调优。

经过这些最佳实践，能够加强你的监控策略。国内外有不少优秀的监控工具，如 Zabbix 、Nagios 、Datadog 、阿里云、监控宝、腾讯云等。此外 OneAlert 是国内首个 SaaS 模式的云告警平台，集成国内外主流监控/支撑系统，实现一个平台上集中处理全部 IT 事件，提高 IT 可靠性。 本文转自 OneAPM 官方博客