机器学习在 IT 运维管理中的必要性！

时间 2019-11-21

标签机器学习维管必要性繁體版

原文原文链接

机器学习技术在监控工具中的应用已经成为 IT 运维与 DevOps 团队的一大热点话题。尽管相关的使用案例不少，对 IT 团队而已真正的「杀手级应用」是机器学习如何提升实时事件管理能力，从而帮助较大规模的企业提升服务质量。对此，关键在于在用户发现问题以前提前探测异常，进而减小生产事故与中断的负面影响。算法

那么，在IT运维管理的环境下，机器学习究竟是什么？架构

网上有很多关于机器学习的宏观定义：对于某给定的任务T，在合理的性能度量方案P的前提下，某计算机程序能够自主学习任务T的经验E；随着提供合适、优质、大量的经验E，该程序对于任务T的性能逐步提升。更通俗的来说，即：随着任务的不断执行，经验的积累会带来计算机性能的提高。运维

若是在IT运维管理的前提下，也许这样的定义更加准确：机器学习是分析数据，反复地向数据学习，进而在不参考明确模型的状况下，找出隐藏观点的一类方法。机器学习

在 IT 运维管理的语境中，机器学习的首要替代方案是为 IT 运维管理创建行为模型，了解这一点很是重要。行为模型方法要求了解基础架构的全部组件，才能理解出现中断或服务质量降低的可能缘由。更确切地说，你要试着判断哪些事件和告警模式与你但愿监控的条件相匹配。工具

事实上，大多数 IT 运维管理工具都属于这一类别。不管是过期的遗留事件管理器，仍是使用「聚合及查询」方法进行 IT 运维的现代工具。总之，你都要对这些工具进行必定的配置，让它们留意你预先就知道须要搜寻的东西。性能

而另外一方面，机器学习则使用数据自己来寻找值得留意的特征，这些特征可能在事先彻底没法预知。例如，非监督式机器学习，可用于分析事件流或日志消息，从而找出异常的消息集群。以后，这些异常能够与某项运维结果相联系，从而捕获潜在中断的缘由与症状。学习

然而，监督式机器学习可用于记录用户针对给定告警及告警集群的活动，并相应地作出算法上的调整。本质上，机器学习利用数据不断地建立并更新行为模型，而不是使用静态的行为模型寻找特定的结果。人工智能

在 IT 数字化转型的今天，随之而来的规模复杂度、变动速度以及软件抽象化等挑战成为了机器学习应用于 IT 运维管理的理由。日志

若是基础架构处于不断变化的状态，根本没法创建起固定的行为模型。若是你想了解来自应用与基础架构的大量数据的意义，使用基于规则的方法无疑是死路一条。在新的软件时代，你必须利用机器学习进行实时的数据分析，这是保证服务质量的必备条件。无能否认，IT 领域正变得愈加混杂、虚拟化以及流动化，只有使用机器学习技术，才能坦然应对这些变化。事件

现代 IT 环境下，不断变化的基础架构会产生大量的事件数据须要处理。在 OneAlert，机器学习主要用于「消除噪音」。例如，面对每秒钟成千上万的告警事件，如何在消除噪音的同时保留有价值的信息事件？

目前 OneAlert 产品对告警事件的压缩率已经高达80%。基于时间片的告警信息压缩已经趋于成熟，基于告警属性类似度的聚类模型可以将告警压缩率达到 95%。而基于机器学习的人工智能压缩更是可以将告警压缩到 99%（咱们敬请期待！）

OneAlert 是北京蓝海讯通科技有限公司旗下产品，是国内首个 SaaS 模式的云告警平台，集成国内外主流监控/支撑系统，实现一个平台上集中处理全部 IT 事件，提高 IT 可靠性。想了解更多信息，请访问 OneAlert 官网，欢迎免费注册体验。

本文转自 OneAPM 官方博客