智能运维 | 我在百度对抗报警风暴(下)

在本系列上一篇文章《我在百度对抗报警风暴(上)》中,运小博介绍了报警风暴的起因及常规的报警合并策略。本篇文章中,将介绍基于报警策略关联分析的报警合并策略、基于报警数据挖掘的机房故障分析、报警关注度分析、值班与逐级通告机制和报警回调等技术。 报警合并策略 01 关联策略的报警合并 当某个模块出现问题的时候,往往会引发上游或下游模块也一并报警。假设模块A调用了模块B,当模块B出现问题的时候,很显然模块
相关文章
相关标签/搜索