技本功丨智能监控,在袋鼠云日志运用中都经历了什么……

图片描述
做者:大鹏,袋鼠云日志团队后端开发工程师后端

传统监控范围小,智能监控效率高,你说到底怎么用?大鹏给你来支招~架构

图片描述

传统监控是经过对监控项设置一个固定值(阈值),当监控项指标超过这个阈值时就通知人们关注这个指标项。传统监控通常适用于必定范围波动的业务指标:网站

好比磁盘的使用率,CPU的使用率等,当指标超过必定值时就意味着系统可能出现故障,可是遇到波动范围比较大的场景时;好比某银行的交易09:00~18:00之间交易量大,在其余时间交易量可能为0,工做日交易通常,非工做日交易剧增;好比某网站的点击量在白天很大,在深夜点击量可能为0,若是使用传统监控对上面的场景进行指标监控,每每不能很好的反映系统和业务的状态,产生不少误报的状况,增长人工成本,并且甚至会让人们对告警产生麻木,不信任感。spa

技术架构 日志

图片描述

模型训练器:云日志以固定频率采集的业务指标造成时间序列,输送到模型训练器中,模型训练器有一系列的数学模型组成(可动态添加),每一个模型都获得预测值,观察值与预测值以前存在的偏差,对比偏差咱们将获得一个与业务最匹配的数学模型。利用这个训练出的最佳模型,输入将来时间点,获得预测值,绘制将来业务图。图片

异常检测器:训练的数学模型预测的值与实际的观察值存在必定的偏差,这个残差系列输送到异常检测器中,异常检测器也是由一系列的数学模型组成(可动态添加),模型检查的偏差点与业务的异常点最匹配的模型将做为异常检测模型,将后续检测出的异常点发送给预警系统。后端开发

时间序列建模 
采集的时间序列数据并不是是散乱,毫无规律的一组数据,它每每伴随业务的变化而变化,有的具备很强的周期性规则,有的具备相对平滑的趋势,咱们须要利用对应的数学模型来拟合,一下是咱们经常使用的几种数学模型。开发

图片描述

对不一样特征的时间序列,不一样的数学模型所计算出的偏差也大相径庭,咱们从如下列表的指标来衡量这些数学模型的匹配度。数学

图片描述

在通过以上指标衡量预测模型的优劣后,我获得最契合业务的拟合曲线,获得最佳的训练模型。而后输入将来时间点获得那个时间点的预测值,而后绘制出预测曲线。产品

异常检测

在预测出将来时间点的数据后,如何检测这个业务数据是否异常,咱们也有对应的异常检测模型,以下表所示:

图片描述

将残差指标用以上模型计算以后,与过去的业务异常点进行对比,选择最接近的异常检测模型,做为后续的异常检测,当模型检测数数据异常时,即时发送预警给巡检员,防患于将来。

云日志里说乾坤,日志分析真有用,监控告警样样行,爆炒产品来祭天。赶忙动手来参加吧~

大鹏讲堂,下次见~

相关文章
相关标签/搜索