摘要:本文由美团点评研发工程师孙梦瑶分享,主要介绍 Flink 的指标监控和报警的内容,分为如下四部分:前端
监控告警链路:基于美团点评实时计算平台的实践
缓存经常使用的监控项:哪些指标能够高效地衡量做业
微信指标的聚合方式:横当作岭侧成峰
restful指标监控的应用:有哪些常见的表达方式供参考
网络
Tips:点击「阅读原文」连接可查看做者原版 PPT 及分享视频~架构
为何咱们关注指标监控app
指标:衡量和描述对象的方式
-
可量化: 好比最近天气很热。今天比昨天热吗?北京的温度比上海更热吗?你们就没有办法评判,因此温度就是这样一个指标,来量化咱们天热的程度。 -
标准化: 咱们习惯说的温度是摄氏温度,若是有人跟你讲华氏温度,说今天77度,你就会以为很奇怪,气温怎么会有这么高的数值,所以,咱们的指标还须要是标准化的,须要有一个统一的标准。 -
多维度: 南方的同窗以为35度闷得喘不过气来;北方的同窗以为35度好像也就那样。由于咱们除了气温这个指标会影响人体的温馨度以外,还有一个指标叫空气湿度。因此衡量天气须要结合多个维度的指标。
监控:对指标进行监测和控制
-
实时:好比天气预报,实时的预报才是咱们须要的监控内容。 -
易用: 相比于电视机里固定时间播报的天气信息,手机 App 就是易用的天气监控软件。 -
可查询历史: 好比前几天某地一直在下雨,河流湍急,可能影响我出行的选择。
-
监控报警的链路——基于美团点评实时计算平台的实践 -
经常使用的监控报警项——哪些指标能够高效地衡量个人做业 -
指标的聚合方式——横当作岭侧成峰 -
指标监控的应用——有哪些常见的表达方式供参考
1. 监控报警的链路运维
1.1 监控报警链路
-
日志收集 部分,咱们首先是要把这些日志和指标进行统一化、集中化的收集。对于这一环,以前两个讲师也讲过, Flink 如今提供的方式有三种:一个是在 Flink UI 上能够直接看到这个做业的一些指标;第二种 REST API 从做业上获取指标;第三种就是配各类第三方的 Reporter 。美团这边是在 slf4j 的基础上增长本身的维度信息格式化后往下发。 -
解析展现 部分,使用一些 Flink 做业去解析聚合平台全部做业的指标数据,展现给用户,也提供给下游使用。 -
监控和报警 部分,对于聚合完成了的指标,作一些个性化的可配置的规则报警。

1.2 指标展现:Grafana


2. 经常使用的监控项微服务
2.1 经常使用的指标
对于系统指标最常关注的是做业的可用性,如 uptime (做业持续运行的时间)、fullRestarts (做业重启的次数)。工具
第二个关注的是做业的流量,能够经过 numRecordsIn、numBytesInLocal 等相关指标来关注做业天天处理的消息数目及高峰时间段的流量,经过关注这些指标能够观察做业的流量表现是否正常。
而后是 CPU(如:CPU.Load)、内存(如:Heap.Used )、GC ( 如:GarbageCollector.Count、GarbageCollector.Time )及网络 ( inputQueueLength、outputQueueLength) 相关指标,这些指标通常是用来排查做业的故障信息。
另外是 checkpoint 相关信息,例如最近完成的 checkpoint 的时长( lastCheckpointDuration )、最近完成的 checkpoint 的大小( lastCheckpointSize )、做业失败后恢复的能力( lastCheckpointRestoreTimestamp )、成功和失败的 checkpoint 数目( numberOfCompletedCheckpoints、numberOfFailedCheckpoints )以及在 Exactly once 模式下 barrier 对齐时间( checkpointAlignmentTime )。
还有就是 connector 的指标,例如经常使用的 Kafka connector ,Kafka 自身提供了一些指标,能够帮助咱们了解到做业最新消费的消息的情况、做业是否有延迟等。
好比处理逻辑耗时打点,例如包含复杂逻辑的业务系统,能够经过在逻辑先后进行打点,这样能够查看每条消息处理完这个逻辑的耗时。
另外一块是外部服务调用的性能, 在 Flink 做业中可能须要访问外部存储(如 Redis ), 能够经过打点来查看请求的耗时、请求的成功率等。
还有是缓存命中率,有时候因为数据集过大,咱们只访问热数据,此时会在内存中缓存一部分信息,咱们能够监控缓存命中率,若是缓存命中率很是高说明缓存有效,若是缓存命中率很是低,一直在访问外部存储,就须要考虑缓存设计的是否合理。

2.2 如何肯定哪些指标须要关注?
第一点是做业状态相关的, 如做业是否出故障、做业是否存活、做业是否稳定运行、影响做业可用性的风险因素(如上次 checkpoint 是否成功、最近成功的 checkpoint 的时间)。
第二点是做业性能相关的,如做业的处理延迟、数据倾斜、性能瓶颈(如外部访问)等。
第三点是业务逻辑相关,如上游数据质量、新上的逻辑是否存在问题、数据是否存在丢失( Exactly once 语义中数据是否容许丢失)。

3. 指标的聚合方式



4. 指标监控的应用
4.1 做业异常报警
-
做业状态异常: 包括做业任务的异常状态如 failing,也包括 uptime 等指标的异常。 -
做业无指标上报: 做业无指标上报会给做业的负责人发报警;当上报的做业多到必定程度了,达到预值的时候会直接给平台的管理员发报警。 -
指标达到阈值: 是你们最经常使用的报警项。好比: -
处理量跌0 -
消费延迟(落后必定数量、持续必定时间) -
失败率、丢失率等 -
个性化: 实时计算平台中有不少类任务,不一样的任务它会有不一样的特性。好比: 报警时段:不一样的时间段报警,可能须要有不一样的域值,或者不一样的报警方式(公司通信软件报警、电话报警等)
-
聚合方式:不一样的业务可能会有不一样的报警的聚合的方式,这个也是须要尽可能的兼容的。 -
错误日志、关键词日志: 当错误日志到达必定量或者日志出现某关键词时,触发报警。
4.2 指标大盘
-
反映平台总体的现状: -
异常值高亮 -
多维度聚合 -
时间线对比等 -
及时发现并快速定位到故障 -
给出平台可优化的方向 -
便于统筹资源分配
4.3 自动化运维
-
没法运维: 没有指标,做业状态是个黑盒,出了问题一群人查代码。 -
手动运维: 重启,扩容,回滚、迁移,降级,纠正错误代码,优化处理逻辑。手动运维表示不管在干什么,当报警电话一来,你须要掏出电脑、手机去排查问题。 -
辅助运维: 当手动运维作多了,把你们的业务做业的各项指标都进行标准化,咱们就能够获得一些参考值。把这些经验汇总,做为其余同窗的运维的时候参考的建议,这样即便是新人也能够快速借助这些辅助工具进行处理,下降学习成本。 -
智能运维: 智能运维是不须要人处理,当发生故障的时候,自动操做的运维方式。执行做业的机器挂了,自动拉起,自动把做业启动起来。资源不足了,自动去扩容。线上的做业有问题,自动切换到备用的做业……固然目前能作到的这些只能解决一部分问题,一些代码问题带来的故障仍是须要人为介入修复 bug。

Q&A
在设计整套系统的架构时,须要有必定的兼容性,不能只关注一类指标。
设计初期须要考虑有哪些类型的指标,每一个类型的指标有什么样的特征,可能有哪些聚合的维度,用什么样的方式去聚合。
搭建模型。
设计,先把指标的特征提取出来,而后对这些特征去进行设计,最后作一个能兼容的系统,这样对于已知类型的指标,就只需修改配置就能够扩展了。
关注 Flink 中文社区,获取更多技术干货
你在看」吗?
本文分享自微信公众号 - Flink 中文社区(gh_5efd76d10a8d)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。