以阿里云的运维大屏为例。运维
1、重点关注的数量统计,统计实例的运行状况和节点的运行状况。(实例就是节点每次到时间了的具体执行的任务)优化
重要的实例数量包括:阿里云
除了天天要观察运行的实例数量,咱们还要观察节点的数量。编码
具体例子以下图所示,能够切换"所有"和"我负责的"blog
2、关注当前调度的任务的总体的运行状况,获得一个全局的概览,通常按天统计资源
总体节点的运行状况可分为:开发
运行成功、运行中、运行失败。im
未运行,其中未运行的缘由包括:上游依赖未运行,资源未到(就是上述的等资源实例)、调度时间未到。d3
和第一个图同样,能够看到运行失败和等资源实例,不同的是,能够经过饼图看到整个任务各个状况的所占比例。统计
具体以下图饼图所示,这里的未运行就是上游依赖未运行
3、任务完成状况的时点图(折线图)
观察当天每一个时点的完成进度,能够和昨日作对比,也能够画其余历史平均线。
以下图所示,该图是当日累积完成的任务数量
4、资源调度时点图
上图是累积完成数量,也能够作每一个时点各自完成的数量,查看实例的高峰期在哪一个时点,包括资源的使用在哪一个时点,
这样就能够观察到资源使用的高峰期,对资源作合理的分配,防止到时间的任务出现等资源的状况。
下图将实例数量和资源使用率合在了一张折线图上。
能够看到2点到3点的资源使用和任务数量很是的高,应该重点优化。
5、以上都是一天的统计值,具备偶发性,咱们须要找出那些一段时间内运行问题较大的任务,能够观察一段时间内,执行时长和出错次数最多的top10,以下图所示
能够调整每张表的粒度,如周期为近一个月或最近七天,也能够按照人维度排行,看看哪位开发人员的任务最须要优化。
6、在更长一段时间内观察,好比一年。能够观察节点或实例的变化值,以下图所示
7、其余。
若是节点由多种编码组成,能够查看当前任务的类型的分布。