首个智能运维项目开源!腾讯织云Metis,用算法替代人为指定规则

10月20日,腾讯织云Metis 智能运维学件平台在OSCAR开源先锋日上宣布,正式对外开源。Metis 是AIOps(Algorithmic IT Operations),即智能运维领域的首个开源产品。智能运维主张经过算法从海量运维数据中学习摸索规则,逐步下降对人指定规则的依赖,进而减小人为失误。ios

OSCAR 开源先锋日由中国信息通讯研究院主办,中国信通院云大所所长何宝宏,中国信通院云大所云计算部副主任栗蔚,腾讯云副总裁赵建春,腾讯云运营部总经理肖世广共同参与Metis开源发布仪式。 (腾讯织云“Metis”开源项目正式发布)算法

腾讯云副总裁赵建春表示:“人工智能与运维的结合有了AIOps的新概念,如何在智能运维领域寻求到新的突破,从传统 API 转向运维学件,将腾讯海量数量训练出来的模型贡献开源社区和业内,我想这就是织云Metis 智能运维学件开源的意义,和你们共建 AI 运维场景,让人工智能和运维紧密结合。” (腾讯云副总裁赵建春)数据库

在“腾讯织云Metis 智能运维学件平台”这一命名中,“学件”的概念由南京大学周志华教授提出。学件 = 模型 + 规约,具备可重用、可演进、可了解的特性。在此基础上,腾讯云副总裁赵建春先生进一步提出“运维学件”的概念,亦称 AI 运维组件,强调其具有对运维场景智能化解决方案的记忆能力。网络

“织云”指的是腾讯智能一体化运维平台,而“Metis”取名自希腊神话中的智慧女神墨提斯。随着互联网业务的急剧膨胀和服务类型的多样化发展,人为指定规则的不足之处逐渐凸显,促使近两年来智能运维领域的高速发展。织云Metis是聚焦在智能运维的应用实践集合,旨在经过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。负载均衡

因为社交类业务种类丰富、规模庞大的特色,腾讯搭建了充足的IT基础设施,为实现多维度、深层次地运维公司各种业务在发展交互过程当中产生的海量运维数据,Metis应运而生。运维

现在,Metis在运维质量、效率、成本三个方面都落地了众多智能运维实践,逐步构建出成熟的智能化运维场景,具体表现为质量保障、效率提高、成本管理、智能检测、通用模型和规则学习6个方面。机器学习

质量保障: 利用机器学习技术,进行异常检测、故障定位、瓶颈分析等,可在无人工干预下,智能地保障业务稳定运行。如无阈值智能监控、DLP生死指标监控、多维根因分析。学习

效率提高:基于天然语言处理、机器学习技术,进行智能问答、智能变动、智能决策,可显著提高运维效率。如Metis的智能咨询机器人、舆情监控、集群智能负载均衡、数据库参数调优、容量预测。测试

成本管理:基于大数据智能分析技术,进行资源(设备、带宽、存储)管理,可迅速分析资源使用的明细,并经过横向大数据对比识别可优化点。如硬盘生命周期预测。本次Metis率先开源的无阈值智能监控学件,是从无监督+有监督学习的角度来解决时序数据的智能检测问题。大数据

智能检测:运维人员不须要再去设置监控阈值,模型可以对异常状况作智能判决,直观告知检测结果是正常仍是异常。一般而言,阈值的监控包含最值、同比、环比等维度设置,此检测方案在检测初期效果较好,可是随着业务发展和规模壮大,就会须要付出较高的人力成本去维护合适的阈值范围,对于大规模发展性业务得不偿失。智能检测的方案是基于统计判决、无监督和有监督学习对时序数据进行联合检测,经过统计判决、无监督算法进行首层判决,输出疑似异常,其次进行有监督模型判决,获得最终检测结果。这个过程就摒弃了阈值方式带来的问题。

通用模型:智能检测的模型由腾讯织云多元化的海量业务样本训练而成,比较适合复用在互联网行业的时间序列检测中。有监督的检测效果取决于标注样本的准确性和种类丰富性,经过样本库管理功能积累了大量的正负样本、分为测试集和训练集,通用模型是通过海量训练集的样本数据训练而来,涵盖较全面的样本分类。能够帮助一些用户避免掉缺少训练数据所带来的难点,用户可直接加载通用模型进行检测。

规则学习:实践过程当中也会遇到较个性的业务场景,千人千面,不一样的用户对异常的判断标准也不尽一致,所以支持标注反馈功能,用户可根据标注信息进行训练,生成新的检测模型,进而掌握新的业务规则。

Metis无阈值智能监控学件在腾讯内部已承载了超过240万个业务指标的异常检测,它通过海量监控数据的打磨,在异常检测和运维监控领域具备普遍的应用性,可取代传统的阈值检测方式,达到智能检测时序数据的异常,还能结合业务策略对异常数据进行告警推送。

秉承腾讯开源的理念,Metis将打造一个开放的学件平台,陆续开源时间序列指标预测、主机异常智能分析、MySQL异常智能分析、硬盘生命周期预测等其它智能运维学件,集合广大用户在智能运维领域的建设经验和实践,丰富完善针对质量、效率、成本三个方面的AI学件,搭建完备的运维场景,并将在将来兼容其它监控领域的开源产品,如Zabbix、Nagios、Open-Falcon等。

近年来,腾讯在开源社区愈加活跃,自2010年起,腾讯对内采起“开放、共享、协力开发”的研发模式;对外实现自主开源,并积极参与社区工做,相继加入Hyperledger、LF Networking和开放网络基金会,成为LF深度学习基金会首要创始成员及Linux基金会白金会员。本次Metis开源,于腾讯,是其开放战略在技术领域的又一实践;于行业,则将填补智能运维领域的开源空白,并汇聚众力,促进运维技术的突破与发展。

相关文章
相关标签/搜索