产品经理说|AIOps 让告警管理变得更智能

AIOps 人工智能和IT运营支撑 Ops 之间的故事,愈演愈烈,已经成为当今运维圈的热门话题,我打算从2篇文档分享咱们在 AIOps 上一些探索和实践。(本篇)为何事件(告警)处理须要 AIOps;(下篇)OneAlert事件处理平台在 AIOps 方面的探索。html

1、 规模化

如今的企业 IT 规模,软硬件都与以往有数十倍/上百倍递增,如何管理 IT 可用性和高效性,成为 IT 运营 DevOps 团队重要职责。规模化带来两个显著特色:一、更多的变动;二、更大的规模ios

企业的 IT 想跑的更快,就必须将工做给分解的更细,让团队可以以独立小分队做战。因此敏捷 Agile、DevOps、云和微服务大行其道。算法

为了保障高可用和高性能,如今企业基本上会用多个不一样的工具,例如 ZabbixNagios、Open-Falcon、Solarwinds、Prometheus、ELK 等以及云平台自带的监控工具,实现网络和基础设施、应用和中间件等服务。这些系统天天会产生数以万计的事件/告警,这些时间都须要去分析、优先级甄别、并执行预案操做。随着时间的推移,多是数十万、百万事件须要关注。微信

2、 人力有限

研究证实,人类大脑在短期内(10-15秒),只能同时处理7-9件事情。这有点扯,习惯多线程工做的程序猿们,也就2-3个事情而已。因此工程师的生产效率实际上是可期的。相信若是采用敏捷模式的工做模式,最后统计人均工做量(如 Jira)的时候,基本上一个团队/每一个人的输出是必定量的。网络

这里就存在一个重要的矛盾:日益增加的 IT 运营须要,同落后的 IT 生产力之间的矛盾 :多线程

以事件管理(告警管理)为例,咱们看看人工智能结合后,有什么不一样。事件管理是 IT 运营支撑过程当中最为高频的事情,也是最费时费力的事情。运维

大多企业都有相似于 NOC,服务台或者是一线支持团队,及时分析、甄别重要事件,第一时间处理,若是处理不了,通常会协同他人,或者派发工单。这些有一个前提,通常都是有一个集中的事件中心(告警平台),例如 OneAlert。经过接口、邮箱等方式收集各种监控事件过来。机器学习

告警集中化便于集中处理事件的同时,也带来了一些问题:常见的是告警疲劳(太多事件无感)和噪音过多(不知道什么是重要的),重要事情淹没在汪洋大海里面。 一线团队识别重要问题的难度如大海捞针,因此大多人会作一个事情:禁用告警。只将须要处理的事件发送至告警平台,这样人为控制的方式,可以有效甄别;但也有问题,会有可能忽略大量的预警信息,不能及时在故障前发现问题;可能会形成对业务服务和终端用户的影响。分布式

在进入AI模式前,有不少人包括 OneAlert 团队都在寻找合适的解决方案,常见的是事件的去重、关联、合并,尽量识别根源,为此有些团队花巨大精力构建 CMDB、并强化拓扑关联等等,以及创建合并策略规则,目的只有一个,就是尽快甄别重要问题,以及识别根源,是否影响业务影响。然而事实证,大量的人为干预和规则设定,大量的前置规则,都须要投入,而实际产出可能各异,最终效果不见的理想。特别是在规模化(云化、分布式和动态微服务)之后,维持准确的 CMDB 和拓扑关联更加困难。微服务

3、 人工智能与 AIOps

在谈 AIOps 前,咱们先了解下什么是 AI。大数据发展、高性能硬件、更先进的算法三驾马车推动下,人工智能迎来第三轮发展浪潮。利用人工智能高效实现海量数据的分析和挖掘;处理数百万事件乃至千万,基本都是秒级甚至毫秒级。经过监督学习(人干预)和非监督学习(不干预),很是适合去处理大数据事情,这一点每每是人力达不到的。

Gartner 在2016年预测2019年,有25%的全球企业将会使用 AIOps 技术或平台去实现IT运营支撑,如今已经2018年,有理由相信下半年到明年 AIOps 的爆发。

 

产品经理说|AIOps 让告警管理变得更智能 技术分享 第1张

 

从 Gartner 定义范畴来讲,AIOps 是包括监控 Monitor、服务管理 Service Desk、自动化操做Automation,基于大数据和机器学习技术的持续优化过程。核心思路是经过海量数据的异常检测和多维度关联飞、加强或取代 ITOM 领域的三个重要能力:监控、服务管理和自动化,进一步帮助IT运维人员准确甄别系统异常、快速定位故障根因、并对潜在系统运行风险进行预警、实现IT和业务的持续洞察和改进。

国内很多一线互联网企业已经在监控 Monitor 领域上作了很多尝试,而也有很多专业厂商在这领域发力。咱们另一个产品 I2(Intelligence Insight)聚焦监控,更多详细内容参见《AIOps 一场颠覆传统运维的盛筵》www.aiops.com。

今天讨论的其实重点是服务管理 ServiceDesk 的事件(告警)管理,实际上还有更多IT服务管理(ITSM)的人工智能化。我和团队的OneAlert事件处理平台,更多聚焦的是监控产生事件到人员处理响应这个过程,并且是一个高频场景,苦活累活较多。

咱们对人工智能的指望是将数以万计的事件,通过漏斗式过滤,剩下的都是金子,缩减为数十个重要事情(不是单粒度事件),这样一线就能够保持更高的专一力和较高的工做效率。与传统人工模式相比,指望人工智能算法能够相对轻松的快速(秒级)处理事件,实现去重、关联和甄别重要事件,并建立工单/通知提醒,实现知识重用。

工程师经过人工智能技术辅助,能够更快更高效的处理重要事件,减小故障时间和业务中断时间,从而提高 IT 系统的可靠性和高性能。因此 AIOps 是一个新的途径,也是技术发展的必然选择。

咱们指望事件(告警)处理能够实现:

(1)自动减小告警数量和噪音,去芜存菁。

(2)智能的关联/聚类可以快速的识别问题,分门别类。

(3)快速识别根源。

(4)协做自动化,实现团队沟通和协做。

(5)知识积累和自动复用,决策支持,越用越智能。

 

产品经理说|AIOps 让告警管理变得更智能 技术分享 第2张

 

假设一个场景:

“某商城,网络交换机的端口故障,引起了一系列应用主机故障闪断(如 Zabbix Agent Ping),以及相关的商城和门户业务系统不稳定。”

OneAlert 的 AIOps 方案预期效果:

(1) 将短期数百/数千事件,缩减至数类问题:网络交换机、主机闪断、应用商城不稳定和门户不稳定。

(2) 其中网络交换机端口故障和应用主机故障,须要重点关注,前者的根源几率为80%。

(3)上个月该交换机曾经出现过相似问题,解决方案是什么样的,如xx流量过大,须要限流干预。

(4) 自动通知相关基础设施团队、商城和门户支持团队。通知出问题,而不是某个业务系统100个进程闪断的逐条详细。

相比传统的人工方式,事无巨细的作法,人工智能的优点在于可以从大量的事件中提取关键重要信息,并甄别、识别优先级类型,并自动的实现人员协做通知,复用知识,实现决策支持,从而提高工做效率。

下一篇《OneAlert 事件处理平台在 AIOps 方面的探索》将针对以上几点,展开分享。

OneAPM 全新推出新一代 AIOps 平台 I2,欢迎您随时联系咱们,即刻开启贵公司的智能运维之旅。点击进入 AIOps 官网了解更多信息。

来源:http://blog.oneapm.com/apm-tech/822.html

相关文章
相关标签/搜索