基于机器学习的智能运维AIOps建设,下一步可以做什么?

智能运维建设现在已经在各行各业的新一代运维建设中提上了日程安排,擎创科技作为国内首家专注于智能运维的解决方案提供方,针对百余家不同行业的企业运维管理者做了相关调研(其中部分数据来源于双态IT联盟的调研成果),就智能运维的展开路径情况做了细部征询,得出了如下分析结论。
在这里插入图片描述
按照企业规模和既有运维成熟度来看,企业规模越大,运维成熟度越高的,越倾向于运维大数据平台(或者运维数据中台)的能力建设,均认为运维数据的治理能力和质量提升是智能运维的关键基础,所以先从这个步骤入手是最理性的选择。其中部分企业做了指标智能化管理的一些试点,取得了一些成绩,但同时也发现单独依靠指标异常检测去完成故障传播链分析和根因定位效果很难实现,于是开始考虑多样化数据融合的智能化场景。

相对规模小的,既有运维成熟度不是很高的,则倾向于场景化建设,针对告警繁杂处理不过来的,在告警抑制、告警智能化管理方面进行建设;针对监控误报漏报率高的,纳入指标异常检测替代固定阀值;希望从日志数据中直接发现异常,但又不想过多通过写SPL或者各类依赖正则的方式制作解析规则的,选择基于日志聚类的算法做实时异常检测。

根据这些实际状况的调研,再结合擎创数十家企业智能运维落地建设的经验,我们梳理出智能运维建设的三大原则和六步走路线。
在这里插入图片描述

1、从自身运维基础出发

不要被一堆美轮美奂的场景迷惑,异常检测、根因定位、故障自愈、知识图谱,不论哪一种智能运维场景都离不开自身的数据条件和运维基础,从自身出发最重要。

2、夯实运维数据处理能力

自身能够有资源建设和维护一支高素养运维开发团队,首选考虑运维数据中台能力建设,先把数据能力夯实,再选择性看待一些智能化场景的落地。

3、循序渐进的场景化建设

自身运维管理资源不足,只有若干运维开发人员,甚至多数为兼职的,优先考虑场景化建设,围绕存在不足和挑战的既有运维场景逐步做智能化改造,在改造中注意要循序渐进,不可贪多求全。 那么,有了智能运维AIOps的建设思路,想要落到实处,从哪里着手为好?企业的IT智能运维建设,应根据自身的情况,擎创建议可以按六步走。

**六步走路线,前三步侧重在实时性数据处理能力的提升,后三步侧重在事后分析和处理能力的提升,智能运维的本质是提升运维数据的洞察和处理能力。**实际上在建设中,无论是大规模的成熟企业还是中小规模企业,都可以沿着这条路径逐步完成运维数字化和智能化的进程。
在这里插入图片描述

01集中监控智能化改造

通过告警精细化管理和分析提升告警处理的能力,松绑人员压力。先通过集中积累历史告警数据,厘清告警的不同类别,分析清楚哪些告警存在不合理情况以及故障发生时告警出现的规律(故障场景识别),从而为下一步溯源确定依据,同时利用智能分析手段实时甄别告警中真正需要干预的部分,提高第一时间发现问题的能力(告警的有效性)和运维人员效能。

02指标监控智能化改造

在搞清楚现有告警有效性问题后,再看无效告警(误报)的源头都从哪里来,漏掉的告警是缺乏监控手段还是监控方式有问题,这时再展开来看具体发生告警的相关指标监控如何改造,引入合适的智能异常检测手段来抑制误报漏报,提高监控能力,同时可以考虑引入容量类指标的预测手段,起到容量预警效果。

03日志实时智能异常检测弥补监控手段不足

许多漏报不一定能从指标监控改造中获取,就需要加强对日志的利用,这时可以将日志实时异常检测作为一种监控手段补充纳入建设路径,日志模式的异常告警也可以丰富故障发生场景的甄别,为预测性发现故障提供依据。

04智能故障综合排查—根因分析和定位

前三步基本肃清了发现问题的挑战后,再考虑分析问题的范畴,每一种单一的数据源(告警、指标、日志)都可以做一部分根因分析的工作,但真正的定位必须利用多样化数据源才能有真正的效果。在这个范畴里,引入CMDB数据源用于辅助定位、结合工单语义分析也是一种方式。但最重要的是分析的过程应该被记录,正确的探索模式是宝贵的经验,应该被沉淀和分享,为及时乃至预测性发现问题提供养料。

05智能知识管理—知识图谱

传统的CMDB表达的是对象和对象之间的关系,运维知识图谱是一种延伸,不仅包括对象和对象之间的关系,更推演到对象所产生的数据和数据之间的关系以及解决问题的数据探索路径,比如从告警触发后的一连串排障分析动作,具体分析哪些指标,如何看待指标之间的拟合度对业务问题的影响,总之知识图谱应该是在前四步取得成绩的基础上逐渐积累发展的,不适合一开始以此为目标进行建设。

06故障自愈

故障自愈放在第六步,不是说一定要最后建设,这取决于在前四步过程中是否有些故障场景的根因已经有极为明确的定位,并且其修复也有明确的步骤可循,这时可以引入自动化机制推动故障自愈的流程,比如有些业务问题确定和磁盘空间满有关,清空即可解决,那么自愈就可以作为内置的自动化流程,但这里要特别注意问题的相关性影响分析,从而可以确保自愈动作对其他业务不造成负面影响。

如果想与擎创交流智能运维AIOps的建设,深入了解三大原则和六步走路线图,5月27日晚8点的直播不容错过哦,本期主要讲六步走路线第一步——监控智能化改造。扫码预约参加,人数有限,赶紧动起来~
在这里插入图片描述