DevOps运维系统:监控管理

ITIL 4的监控管理

在DevOps风行的当下,人们愈来愈关注自动化运维。其中,监控预告警、监控自愈愈加流行起来。在《DevOps实践指南》和《持续交付 发布可靠软件的系统方法》两本书中(DevOps的教科书级别),都有涉及讲解监控管理和实施。其实,监控早不是什么新概念,运维界不管在理论仍是工具中,一直在不断探索。监控管理虽然在ITIL V2 中不曾提交,但在ITIL V3的《服务运营》中做为运营活动来介绍,将监控相关的事件管理,做为一个独立的流程讲解的。在ITIL 4中,监控管理和事件管理,共同组成了一个服务管理实践(Practice)-"监控和事件管理实践"。 ios

监控在ITIL 4中是如何讲解的?
不少人熟悉各类监控工具,可是却没法从更高的流程层面来概括和解释监控管理的活动。在这方面,咱们能够看看ITIL 4的讲解。
安全

1. 监控和事件管理密不可分。须要注意的是,这里的“事件”并不等于“故障”。事件的含义是:

事件:对服务或其余配置项(CI)的管理具备重要意义的任何状态更改。服务器

ITIL 4中有专门讲解“监控和事件”的管理实践。该实践的目的是系统地观察服务和服务组件,并记录和报告肯定为事件的状态变化。此实践可识别基础结构、服务、业务流程和信息安全事件并肯定其优先级,并创建对这些事件的适当响应,包括对可能致使潜在故障或事件的状况做出响应。网络

监控部分侧重于服务和配置项(CI),以检测潜在重要的条件,跟踪和记录服务程序和CI的状态,并将此信息提供给相关人员。而事件管理实践部分侧重于那些被组织定义为事件的状态变化的监控,肯定它们的重要性,并识别和启动对它们的正确响应。有关事件的信息也会被记录、存储并提供给相关人员。简单来讲,监控是来生产监控数据和信息的,而事件是来消费这些数据和信息,并制定相应的响应方案。框架

2. 监控和事件管理的主要流程:

监测和事件管理实践活动造成三个过程:运维

●监控规划过程:向监控中添加监控项的过程,定义监控项的优先级,选择要监测的特征,肯定事件分类的指标和阈值,将事件与负责的行动计划和团队对应起来。ide

●事件处理流程工具

●监控和事件管理审查:该流程是针对重大事件过后分析、筛选和关联分析的更新、服务“健康模型”、自动化和可操做性监控的改进而计划或触发的审查流程。spa

具体活动见下图:
DevOps运维系统:监控管理
blog

3. 为监控的输出信息分级:

咱们须要注意的是,监控是事件管理所必需的,但并不是全部监控结果都会检测到事件。阈值和其余标准决定了哪些状态更改将被视为事件。一样,须要注意的是,并不是全部事件都具备相同的重要性或须要相同的响应。咱们须要为发生的事件类别定义分类标准。典型的类别,按照重要性的增长顺序,是信息性事件、警告性事件和异常事件。

信息:不须要任何措施,也不表明异常状况的事件,通常用于检查设备或者服务的状态,或者确认活动或任务完成。好比:设备成功接入网络,交易成功完成等。

警告:当服务或者设备接近设定的阈值产生的事件,旨在通知相关的人员、流程或者工具,以便检查这种状况,并采起相应措施,以防发生异常状况。例如:服务器的内存从65%持续升高到75%,服务器的响应时间长到使人没法接受,将会违反OLA;网络上的冲突率在过去一小时,提升了15%。

异常:服务或设备当前运行异常,违反了OLA或者SLA。须要注意,异常状况不老是表现为故障。好比,网络中发现了未被受权的设备,这是异常状况。根据故障和变动管理流程,这些异常能够经过故障和变动进行处理。

咱们须要将事件按照预先定义的顺序,匹配一系列标准和规则,也称为业务规则,用来判断业务影响的级别和类型。根据业务规则,咱们还须要肯定触发程序和响应措施。响应措施里面能够包括记录事件、自动响应、告警和人工干预、故障、问题或者变动等,这些响应措施也产生了和其余实践(流程)的接口。

4. 和其余实践的接口:

如表2.1所示,如下活动与监控和事件管理密切相关。请记住,ITIL实践只是价值流环境中使用的工具的集合,应该根据状况在必要时进行组合。
DevOps运维系统:监控管理


监控管理的落地

ITIL 4虽然讲解了监控管理的框架,可是并无给出能够落地的工具和实现方法,固然这也是ITIL 一如既往的风格。我在工做中接触到的监控工具包括,Zabbix, Nagios, ELK+Grafana. 网上有不少介绍这些工具的文章,在此就赘述了。

相关文章
相关标签/搜索