简介:本文将介绍携程实时智能异常检测平台——Prophet。到目前为止,Prophet 基本覆盖了携程全部业务线,监控指标的数量达到 10K+,覆盖了携程全部订单、支付等重要的业务指标。Prophet 将时间序列的数据做为数据输入,以监控平台做为接入对象,以智能告警实现异常的告警功能,并基于 Flink 实时计算引擎来实现异常的实时预警,提供一站式异常检测解决方案。算法
大部分监控平台是基于规则告警实现监控指标的预警。规则告警通常基于统计学,如某个指标同比、环比连续上升或降低到必定阈值进行告警。规则告警须要用户较为熟悉业务指标的形态,从而较为准确的配置告警阈值,这样带来的问题是配置规则告警很是繁琐、告警效果也比较差,须要大量人力物力来维护规则告警。数据库
当一个告警产生时,也须要耗费许多人力验证告警是否正确并确认是否须要从新调整阈值。在携程,规则告警还涉及了其它问题,好比携程仅公司级别的监控平台就有三个,每一个业务部门还会根据本身的业务需求或业务场景构建本身的监控平台。携程内部有十几个不一样规模的监控平台,在每个监控平台都配置监控指标,对于用户是很是繁琐的。架构
针对规则告警存在的以上几种问题,携程构建了本身的实时智能异常检测平台—— Prophet。携程构建 Prophet 的灵感源于 FaceBook 的 Prophet,但实现上有别于 FaceBook 的 Prophet。机器学习
首先,Prophet 以时间序列类型的数据做为数据输入。其次,Prophet 以监控平台做为接入对象,以去规则化为目标。基于深度学习算法实现异常的智能检测,基于实时计算引擎实现异常的实时检测,提供了统一的异常检测解决方案。oop
目前主流的实时计算引擎有 Flink、Storm 和 SparkStreaming 等多种,携程选择Flink 做为 Prophet 平台的实时计算引擎的缘由主要是Flink具有如下四点特征:学习
用户只须要在本身经常使用的监控平台上选择配置智能告警,后续全部流程都是由监控平台和 Prophet 智能告警平台对接完成。监控平台所须要作的包含两件事:ui
Prophet 在接受到新的监控指标后,便开始尝试使用 Tensorflow 训练模型。模型训练须要历史数据,平台能够按照约定好的规范提供历史数据查询接口,Prophet 经过接口获取历史数据并进行模型训练、若是没有接口,Prophet 基于消息队列中的数据来积累训练数据集。模型训练完成后,将其上传到 HDFS,Prophet 会更新配置中心中的配置通知 Flink 有新训练好的模型能够加载。全部实时推送到 Kafka 里面的监控指标的数值,会同步的落到 Prophet 的时序数据库中,在异常检测的过程当中须要用到这些指标数值。spa
当模型训练完成后,Flink 的做业一旦监听到配置发生了更新,就开始尝试加载新模型,实时消费 Kafka 里面的指标数据,最终产出检测结果以及异常告警会回写至 Kafka,各个监控平台会从 Kafka 获取本身监控平台的那一部分告警数据。整套 Prophet 操做流程对于用户是无感知的,用户只须要配置告警,极大的提供了便捷性。日志
在作智能检测以前还会遇到一些挑战。orm
针对以上三点问题,携程尝试了 RNN,LSTM 和 DNN 等多种深度学习算法。
携程通常两周发一次版本,每一个业务指标都是每两周尝试训练一次,模型输入的训练数据也取两周的数据集。
模型训练完成后,Flink 做业须要动态加载模型。但实际场景下,不可能每训练一个模型便重启一次 Flink 做业。因此 Prophet 平台将模型训练完成后上传到 HDFS,通知配置中心,而后 Flink 做业开始从 HDFS 上拉取模型。为了使每一个模型均匀分布在不一样的 Task Manager 上面,全部监控指标会根据自己 id 作 keyBy,均匀分布在不一样的 Task Manager 上。每一个 Task Manager 只加载本身部分的模型,以此下降资源消耗。
模型加载完成后须要作实时异常检测。首先从 Kafka 消息队列中消费实时数据。Prophet 目前基于 Flink Event Time + 滑动窗口。监控指标的时间粒度能够分为不少种,如 1 分钟一个点、5 分钟一个点、10 分钟一个点等等。例如基于 1 分钟一个点的场景来看,在 Flink 做业中开一个窗口,其长度是十个时间粒度,即十分钟。当积累到十条数据时,用前五个数据预测下一个数据,即经过第 一、二、三、四、5 五个时刻的数据去预测第六个时刻的数据,而后用第 二、三、四、五、6 时刻的数据预测第七个时刻的数据。最终得到第 六、七、八、九、10 五个时刻的预测值和实际值。再利用预测值与实际值进行对比。以上是数据无异常的理想场景下的状况。
实际场景下每每会出现意想不到的状况。例如上述 10 分钟的场景中只得到了 9 条数据,缺乏第4个时刻的数据, Prophet 会使用均值标准差补齐此类缺失数据。另外若是在上一个时刻检测到第 六、七、八、九、10 时间区间是异常区间,发生了下跌或者上升。那么此区间的数据被认为是不正常的,不能做为模型输入。此时须要用上一批次模型预测出的第 6 时刻的值替换原始的第六个时间粒度的值。第 二、三、四、五、6 这五个时刻值中第 4 是插补而来的,第 6 是时间区间训练出来的预测值替换掉了异常值。
以插补替换以后的值做为模型输入,获得新的预测值7。再依次进行预测。中间过程当中异常区间第 六、七、八、九、10 时刻的预测值须要做为一个状态来存储到 Flink StateBackend,后续窗口会使用到这些预测值。
实时异常检测主要能够从如下几个方面进行判断:
常见问题
异常缘由
解决方案
阅读原文看场景运用:https://developer.aliyun.com/...