OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理全部 IT 事件,提高 IT 可靠性。有了 OneAlert,你能够更快更合理地为事件划分优先级、分配路径,从而极大地提升团队的协做能力、优化协做流程。本文是 OneAlert 入门系列文章的第三篇,将帮助你快速了解和配置 OneAlert,从而挖掘该平台的最大价值。html
你此前用过的大多数工单系统或问题追踪系统都会要求你手动分类或联结工单。OneAlert 可不同。OneAlert 事件流中的每一个事件都是自动建立的,且以监控栈中实时产生的告警为基础。Zabbix ,Nagios ,Solarwinds ,AWS CloudWatch ,阿里云 ,监控宝,腾讯云等国内外主流监控工具都能支持,并且新的应用正在快速集成。只要该工具会给 IT 和 DevOps(运维开发团队)产生告警,咱们都会想办法与之集成。OneAlert 除了能够作一名合格的告警搬运工,还提供事件分析功能,目前包括总览、告警 Top 分析、告警压缩、应用,即将上线的还有面向 Team Leader 的团队分析、成员分析、通知分析功能。ios
OneAlert 提供两种 Top 分析,一种是根据告警内容产生告警的频繁次数进行排名分析;一种是根据告警对象产生告警的频繁次数进行排名分析。咱们能够直观的看到哪些事件发生故障的次数排名,这样咱们能够有针对的排除发生故障的缘由,预防下次还频繁发生故障。咱们还能够看相应告警的持续时间和 MTTA / MTTR,能够查看团队的工做效率,从而继续优化团队排班和升级策略。算法
生产环境中的一个问题可能致使多个告警。例如,一个磁盘问题可能会先致使磁盘 IO 告警。后者又极可能迅速触发一些列的 CPU,内存,数据库及应用告警。固然,在这种状况下,你可不想分开管理二十多个问题。实际上,它们都是同一个缘由致使的。所以,OneAlert 会自动进行分组,将相关的告警整合为高级事件。OneAlert 的分组算法会使用主机名、集群和应用等信息,确保全部相关告警都分到同一组内。将来还会根据集群、应用和团队职责等进行分组。此外,算法还会考虑告警出现的时间顺序,使你对事件的了解更加深刻。数据库
以上事件分析功能主要面向运营团队的一线人员,将来咱们将推出面向 Team Leader 的团队分析、成员分析、通知分析功能。让 Team Leader 能够直观看出团队设置的排版和升级策略是否须要继续优化,也能够看出每一个人的确认告警的时间和解决故障的时间,查看整个团队和成员的工做效率。更多功能敬请期待。运维
OneAlert 可以实时地自动整合告警,而且经过多链路多种通知方式让告警最有效率的通知到相关人员,极大的缩短 MTTR,最后事件分析功能让团队价值最大化。这使 OneAlert 成为国内 IT 与 DevOps 团队管理并解决问题的最佳平台。在第四部分,咱们会介绍如何在整个团队中使用该工具,从而最大限度地提升协做效率。工具
本文转自 OneAPM 官方博客优化