flink的checkpoint页面监控

  flink web页面中提供了针对Job Checkpoint相关的监控信息。Checkpoint监控页面共有overview、history、summary和configuration四个页签,分别对Checkpoint从不一样的角度进行了监控,每一个页面中都包含了与Checkpointing相关的指标。web

1、overviewrest

overview页签中宏观地记录了flink应用中Checkpoint的数量以及Checkpoint的最新记录,包括失败和完成的Checkpoint记录。资源

overview页签中包含了一下指标:io

  • Checkpoint counts:包含了触发、进行中、完成、失败、重置等Checkpoint状态数量统计。
  • lastest completed Checkpoint:记录了最近一次完成的Checkpoint信息,包括结束时间,端到端市场,状态大小等。
  • lastest faild Checkpoint:记录了最近一次失败的Checkpoint信息。
  • lastest savepoint:记录了最近一次savepoint触发的信息。
  • lastest restore:记录了最近一次重置操做的信息,包括从Checkpoint到savepoint两种数据中重置恢复任务。

2、historyast

history页面记录了历史触发Checkpoint的详情,包括Checkpoint的ID、状态、触发时间,最后一次Acknowledgement信息等,经过点击More details对应的连接能够查看子task对应的Checkpoint数据test

3、summary监控

summary页面中记录了全部完成的Checkpoint统计指标的最大值、最小值,以及平均值等,指标中包含端对端的持续时间、状态大小,以及分配过程当中缓冲的数据大小。配置

4、configurationim

  • configuration中包含Checkpoint中全部的基本配置,具体配置以下:
  • Checkpoint mode:标记Checkpoint是exactly once 仍是 at least once的模式。
  • interval:Checkpoint触发的时间间隔,时间间隔越小意味着越频繁的Checkpoint。
  • timeout:Checkpoint触发超时时间,超过指定时间JobManager会取消当次Checkpoint,并从新启动新的Checkpoint。
  • minimum pause between Checkpoint:配置两个Checkpoint之间最短期间隔,当上一次Checkpoint结束后,须要等待该时间间隔才能触发下一次Checkpoint,避免触发过多的Checkpoint致使系统资源被消耗。
  • persist Checkpoint externally:若是开启Checkpoint,数据将同时写到外部持久化存储中
相关文章
相关标签/搜索