运维工程师如何作好告警分析与汇报?

智能告警平台(Cloud Alert) CA,能快速接入各种告警信息,经过自动去重、规则压缩、算法降噪,实现告警降噪,帮助IT运维团队减小告警,避免告警风暴;同时经过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提高告警管理能力。算法

CA提供多维度报表帮助您快速分析告警、成员工做效率,概览系统运行情况。支持自定义时间段,回溯分析历史系统情况。数据库

关键指标分析网络

事件量: 原始告警量运维

· 主告警量: 自动去重、规则压缩后告警量优化

· 压缩比: 压缩比计算公式:(1 - 主告警量/事件量) * 100%spa

· MTTA: 告警平均响应or认领时长操作系统

· MTTR: 告警平均恢复or关闭时长3d

事件压缩分析blog

· 按天统计事件量、全部告警、主告警量随时间变化趋势排序

· 点击右上角 more 按钮,可下钻查看更多分析,若回溯分析时间跨度过长,还能够按月维度统计事件量、主告警量、全部告警量

应用分析&关闭分析

· 应用分析: 统计查询时间周期内,不一样应用的告警数量;

· 关闭分析: 统计经过外部系统关闭、超时自动关闭、手动关闭三种方式关闭对应不一样应用的关闭告警数量;

· 应用分析中点击右上角 more 按钮,可下钻选择不一样应用按天查看告警

告警级别&状态分析

· 统计查询时间周期内,不一样级别(提醒、警告、严重)占比,及告警当前处理状态(待认领、处理中、已关闭)。

· 支持联动查询:全部严重级别告警,当前处理状态分别是什么。

· 点击右上角 more 按钮,可下钻查看全部告警详单。

成员分析

· 统计查询时间周期内,团队全部成员的告警处理效率:被分派告警量、认领告警量、关闭告警量、MTTA、MTTR。

· 支持下钻查看每一个成员被分派的告警详单。

 

告警智能分类分析

· CA内置分类算法,基于告警全文本分析,自动标注告警分类。

· 提供本周期与上周期对比分析,快速定位不一样分类告警数量差别及变化状况。

· 分类类型内置,无需自定义,目前支持12种分类:网络状态、硬件处理器、硬件内存、操做系统、磁盘、WEB应用、信号检测、数据库、基础组件、应用监控、容器、其余等。分类算法还在持续迭代优化中,敬情期待。

 

Top告警内容分析

· 统计查询时间周期内,不一样告警内容的发生频率并进行排序,快速定位频繁发生的告警。

· 对于频繁发生的告警,需分析是否须要统一完全解决,或者是否须要调整监控平台的告警阈值等。

· 对于不频繁发生的告警,更须要额外警戒,每每不常常发生的告警,致使的问题更严重,定位根因更久,修复耗时更长。

 

新奇事件TOP10

· 今日新奇事件TOP10:相较于昨天,今日新发生的事件;

· 本周新奇事件TOP10:相较于上周,本周新发生的事件。

 

更多功能欢迎访问睿象云官网进行体验~

相关文章
相关标签/搜索