数据质量管理_定时任务(运维)监控应该包含哪些内容

以阿里云的运维大屏为例。运维

1、重点关注的数量统计,统计实例的运行状况和节点的运行状况。(实例就是节点每次到时间了的具体执行的任务)优化

重要的实例数量包括:阿里云

  • 失败实例的数量,这是天天要观察的数据,通常为早上。第一时间能观察到失败的数量,立刻进行处理。
  • 运行慢实例数量,有些任务没有失败,可是运行很慢,多是倾斜了或者机器节点挂了,出现这些状况要快速定位,防止出现问题。
  • 等资源实例数量。这些任务到时间了尚未开始执行,说明资源使用不够,要防止重要的任务在指定时间没有执行而出现问题。

除了天天要观察运行的实例数量,咱们还要观察节点的数量。编码

  • 孤立节点的数量:孤立节点将没法被触发运行,请及时治理避免影响业务
  • 暂停节点的数量:暂时中止进行调度的节点。
  • 过时节点的数量:已经超出定时的时间范围内,再也不进行调度的节点

具体例子以下图所示,能够切换"所有"和"我负责的"blog

 

 

 

2、关注当前调度的任务的总体的运行状况,获得一个全局的概览,通常按天统计资源

总体节点的运行状况可分为:开发

运行成功、运行中、运行失败。im

未运行,其中未运行的缘由包括:上游依赖未运行,资源未到(就是上述的等资源实例)、调度时间未到。d3

和第一个图同样,能够看到运行失败和等资源实例,不同的是,能够经过饼图看到整个任务各个状况的所占比例。统计

具体以下图饼图所示,这里的未运行就是上游依赖未运行

 

 

 

 

3、任务完成状况的时点图(折线图)

观察当天每一个时点的完成进度,能够和昨日作对比,也能够画其余历史平均线。

以下图所示,该图是当日累积完成的任务数量

 

 

 

 4、资源调度时点图

上图是累积完成数量,也能够作每一个时点各自完成的数量,查看实例的高峰期在哪一个时点,包括资源的使用在哪一个时点,

这样就能够观察到资源使用的高峰期,对资源作合理的分配,防止到时间的任务出现等资源的状况。

下图将实例数量和资源使用率合在了一张折线图上。

 能够看到2点到3点的资源使用和任务数量很是的高,应该重点优化。

 

5、以上都是一天的统计值,具备偶发性,咱们须要找出那些一段时间内运行问题较大的任务,能够观察一段时间内,执行时长和出错次数最多的top10,以下图所示

 

 

 

 能够调整每张表的粒度,如周期为近一个月或最近七天,也能够按照人维度排行,看看哪位开发人员的任务最须要优化。

 

6、在更长一段时间内观察,好比一年。能够观察节点或实例的变化值,以下图所示

 

 

7、其余。

若是节点由多种编码组成,能够查看当前任务的类型的分布。

相关文章
相关标签/搜索