本文篇幅较长,分为上,中,下,三个部分进行连载。内容分别为: AIOps 背景/所应具有技术能力分析(上), AIOps 常见的误解(中),挑战及建议(下)。前言html
我大概是 5,6 年前开始接触 ITOA 这个领域的,首次接触后,发现领域有着巨大的潜力,一直寻找在这个领域作点事情的机会。大约三年前在这个领域创业,积极寻求 Product Market Fit。这几年下来,通过与行业内的专家交流,研读报告,阅读论文,客户访谈,亲自动手对相应的运维场景解析,行业产品的试用调研,以及结合着中国运维市场现状,撰写了此文。本人才疏学浅,不学无术,欢迎拍砖。算法
如下是其中一例,当用户指望超越当前技术水平的一个典型的例子,车毁人亡。数据库
美国加州湾区高速上的一块儿致命车祸,。一辆价值$79,500的 Tesla Model X,在行驶至山景城段101和85高速交界时,忽然撞上隔离带,随后爆炸起火。安全
对此,遇难华裔司机的遗孀 Sevonne Huang(下文简称Sevonne)首次公开发声透露,丈夫生前曾抱怨过,特斯拉的自动导航仪,好几回让车子开向冲上防撞栏。Sevonne 说,将起诉特斯拉。网络
自动驾驶的安全性问题,再次把特斯拉推到风口浪尖上。然而过后,虽然特斯拉发声明称,抱歉发生这样的悲剧,但同时也将责任指向了死者,“车辆再三发出警告,提醒司机操控车子,但事发前,司机并无把手放在方向盘上。自动驾驶仪并不能避免任何事故。”框架
司机对于特斯拉的 AutoPilot 过分相信,最终致使了悲剧了发生。运维
虽然目前的智能运维,所形成的结果可能不会那么严重,可是按照Gartner 技术成熟度曲线来看,AIOps 还处于很是初期的阶段(左下角),超越现阶段的指望,是 AIOps 最大的风险。工具
中国的企业用户每每有大而全的建设方案,如何从企业的实际状况出发,制定节奏合适的规划,我认为是一个很大的挑战。性能
从目前来看,你们指望利用算法解决的场景包括:大数据
以上的每一个智能场景,每一个场景所须要用到的算法都不同,并且成熟度差别较大。
以最为简单,但应用最为普遍,成熟度最高的单指标异常检测来举例,从学术的角度来看,若是你到 Google 里去搜索,你会发现有大约 60000 多条的记录,时间跨度从上世纪 90 年代到几天前的都会有。
从商业化的角度来看,目前从我看到的,比较成熟的也只有 Elastic 公司所收购的 Prelert 的异常检测技术,是产品化的比较好的,普通的用户是容易理解,容易使用的。
这已是 30 年来,集合了那么多顶尖的智慧,所能达到的产品化程度最高,通用性最强的场景了。其余的场景,成熟度,或者通用性确定是不如本场景。
例如故障预测,目前比较好的案例是预测硬盘故障,前提是你拥有大量一样型号,相同批次的硬盘,其中某一些硬盘出故障了,从 S.M.A.R.T 信息中,你才可以得到训练集,而后利用模型去预测同一个批次的故障。这种前置条件,一般只会在特定的用户,例如腾讯,百度的数据中心,一次性购置上千块的,才能出现1到15块的故障硬盘 (据统计,硬盘的故障率在0.1%~1.5% 左右),并且就算有用户根据硬盘的状况,训练好的模型由于每一个用户的机房,电压,温度都不同,极可能没有办法进行复现,所以,此场景通用性极差。
若是要将用于预测硬盘故障的算法,用到某一个 IT 业务系统之上故障上,基本上也是不可能的,由于一个系统,相应的参数,变量,可能影响系统平稳运行因子太多,已是没有办法套用到预测硬盘故障的算法里头来了。
还有,部分的算法,在实验室中的效果很是好,准确率和召回率都很高,可是,消耗资源巨大,实时性差,没有办法投入真正的生产使用的可能性。
所以,在算法上,咱们应该先去落地成熟,ROI 显著的场景。
在无人驾驶技术领域,最核心的一个组件是 LiDar(激光雷达),一种运用雷达原理,采用光和激光做为主要传感器的汽车视觉系统,LiDAR 传感器赋予了自动驾驶汽车可以看到周边环境的“双眼”。
世界上,几乎全部的汽车厂商( Tesla 除外,Tesla 用的是经过摄像头而实现视觉识别技术,因此我我的高度怀疑特斯拉的事故与此有关)在研发无人驾驶技术的时候,都会给车辆安装上激光雷达。
而类比到运维的场景,若是眼睛不够,数据不足,事情看不清楚,实际上是很难作到明确的决策的,具体表现以下:
缺少足够的数据源: 有的客户,没有日志管理系统,也没有任何业务监控的手段,只有 CPU 内存,硬盘等基础监控,这个时候,其实我我的上是不建议在现阶段作 AIOps 的;
整个 AIOps 平台最核心数据平台的部分,是要知足如下的需求:
以上的描述,都是 AIOps 的数据能力要求,每每须要多个大数据处理,存储组件,才能知足这种苛刻的要求,并且还须要无缝的整合起来,相应的工程技术难度很是大。
目前在国内,不管是算法人才,仍是大数据人才,都是比较匮乏的及昂贵的,在人才招募,项目预算制定的时候,要充分考虑相关因素。
从人才的意愿来看,大部分的算法工程师及大数据工程师,更愿意去参与一些离变现比较容易的场景,如推荐系统,视觉识别系统等,如何吸引更多的人才,特别是算法科学家等,让他们感兴趣,加入到 AIOps 的场景中来,也同时得到较好的经济回报,是整个业界须要考虑的地方。
AIOps 的确是一个很是革命性的概念框架,它从大数据和 AI 的能力视角,去颠覆或者完善如今的 ITOM 运维体系,给学术界,工业界,最终用户,指明了一个明确,可持续高速发展5-10年的发展方向。能够预计,在将来 5-10 年内,大量关于 AIOps 的新思想,新理论,新技术,将会像寒武纪生命大爆炸时,不断的涌现,创新源源不断,做为业界工做者,做为企业,做为厂商,如何在此次的周期中抓住属于本身的机会,这是一个很值得思考的命题。
AIOps 让运维部门一下成了公司层面拥有数据最多的部门,运维人如何自身进化,从运维到运营,对大部分运维人来讲,都是一个巨大的机会及挑战。
虽然 AIOps 的确给咱们带来不少的想象空间,可是咱们仍是要以实际落地,实际帮助企业产生效率为导向,要避免跳入 AI 过热的炒做风,一步一脚印,直面挑战,持续演进,不断吸取世界先进的经验及思想,从而迎接将来这10年的黄金时代。
OneAPM 全新推出新一代 AIOps 平台 I2,欢迎您随时联系咱们,即刻开启贵公司的智能运维之旅。点击进入 AIOps 官网了解更多信息。