IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。所以,进行银行业IT运维监控指标体系研究与构建,创建IT统一运维监控指标体系相当重要。数据库
从信息系统期理论出发,信息系统大体分为规划与设计、开发与测试(或购买)、实施、运维管理与持续改进五个阶段。而前三个阶段从时间角度看,只占整个周期的20%,其他时间基本上是对其进行运行维护。这就决定了IT运维服务在银行信息化建设和运行中的核心地位,而定量、实时的交易数据、事件和性能指标成为判断信息系统安全运行状态的主要依据。安全
1、IT运维监控指标体系研究的背景和意义服务器
1.业务发展的客观须要网络
为了充分发挥运维监控的预警做用,逐步提高各种运维监控指标的覆盖率和完备率,咱们须要创建一套系统、规范、面向业务服务的运维监控指标体系。在管理层面,该指标体系旨在让企业管理者花更多的时间在决策上,而不是用于了解复杂、繁琐的IT细节上;从服务定义、服务水平管理、服务监 控、服务诊断的角度,让管理者一目了然;既知足企业要求的服务水平,确保最佳的业务系统表现,又辅助整个企业的业务运营与IT决策。运维
在技术层面,该体系既能够丰富开发新业务系统时的非业务功能需求,使开发团队在系统设计阶段,就把之后运维阶段须要关注的监控指标内嵌到应用系统中,起到 “未雨绸缪”的做用;又能够在老系统改造过程当中增长指标的监控功能,起到“亡羊补牢”的效果;同时,该指标体系对于运维团队全面、有效地部署和配置各种运维工具也起到“有的放矢”的指导做用。ide
监管导向工具
根据银监会《商业银行数据中心监管指引》第二十六条第八款“应集中监控重要信息系统和通讯网络运行状态。采用运维监控工具,实时监控重要信息系统和通讯网络的运行情况,经过监测、采集、分析和调优,提高生产系统运行的可靠性、稳定性和可用性。监控记录应知足故障定位、诊断及过后审计等要求。”为了知足上述 要求,迫切须要创建一套切实可行的运维监控指标体系来指导监控和分析工做,促进运维管理工做的系统化和规范化,下降运维风险。性能
2、IT运维监控指标体系的研究测试
在系统资源层面能够分为数据库类、中间件、操做系统类和存储四大类。其中数据库类的指标能够分别反映服务器的运行状态、实例的运行状态、会话数、锁资源和 监听器的运行状态。中间件类根据不一样的使用特性,如业务中间件、消息中间件等,细分为WAS、Weblogic和MQ三种。操做系统类能够按照使用环境分 为Windows、Linux和Unix三种,客观反映各类主流操做系统的运行状态。存储系统类可分为光纤交换机、光纤交换机端口、存储系统、XP存储系 统和光纤链路,客观反映存储系统端到端的运行情况。优化
在网络层面按照管理特性可分为网络或安全设备的处理器、内存、风扇、温度、电源、系统、设备端口、运行协议等不一样纬度客观反映网络环境的运行状况和运行质量。
在机房基础设施层面能够按照管理设备种类分为电量仪、UPS、空调等,反映机房基础设施的使用状况和运行质量。
上述领域的监控指标经过标准化的数据采集接口收集整理、分类汇总和关联分析,进行IT统一运维监控管理,实现了事件管理、性能管理、告警管理、故障分析等风险处置功能。同时还能提升运维管理工做(跑批、备份、版本、维保、值班、资产等)的平常监督和及时提醒功能。
3、IT运维监控指标体系的构建方法
为了促进监控指标有效落地,充分发挥监控预警做用,需开发和运维团队积极配合,围绕逐步优化和完善指标体系开展工做,从指标梳理、指标设置、指标权重计算、指标评估、体系创建五个阶段,造成持续优化的闭环工做过程。
1.指标的梳理
各开发和运维团队须要根据业务特色和系统状况,结合实际运维工做须要,采用专家经验法,以调查问卷的方式选取相应的监控指标造成特定的监控指标集 针对性能类指标,指标阈值是衡量应用系统性能容量是否正常、是否须要优化或扩容的量化依据。能够将阈值分为基准阈值、关注阈值和告警阈值三种。
基准阈值是指信息系统正常运行状态下的标准值,即该系统在业务时段,性能容量指标正常运行时的数值。关注阈值是指分析评估信息系统是否须要优化的临界值, 其数值是在基准阈值的基础上上浮必定比例,具体比例应根据信息系统的特色而定。告警阈值是指信息系统要进行扩容的临界值,仅需对关键指标设定该类阈值。
理想状况下,阈值的设置应遵循“基准阈值<关注阈值<告警阈值”的原则;阈值的初始设置可依据系统的运行特性,结合专家经验而定,在实际使用过程当中,可根据指标监控状况进行调整。
2.指标的设置
在指标梳理的基础上,各运维和开发团队应对监控指标集中每一个指标进行科学的设置,设置内容包含指标采集方式、采集频率(采样间隔)、指标数据类型、触发告 警条件、告警级别、告警描述、指标数据输出接口类型和字段格式等对于关键指标应明确标识,例如在指标名称前加*号标识。
对于关键性能类指标还应明确其阈值的设置,
3.指标权重的计算
在设计指标权重时,各使用部门可使用专业的层次分析法进行定量计算,也可使用一般的专家经验法进行定性划分。层次分析法的好处是能够解决因子分析法有时没法采集数据的缺陷,且经过指标间的两两比较,在肯定多指标的权重时,较他方法而言更可靠和准确。而专家经验法在评判权重时相对简单,但缺点是因指标太多,没法综合判断致使的指标权重不许确,须要后期持续优化。
4.指标的评估
实际运维工做中,在充分发挥各种监控指标用途、又不影响正常的业务生产活动时,为了推进运维管理质量的提高,须要遵循SMART原则对指标进行评估。即:S表明具体(Specific),是指监控指标要有针对性,不能笼统;M表明可度量(Measurable),是指监控指标是可量化的,验证指标的数 据或信息是可获取到的;A表明可实现(Attainable),是指监控指标能够经过现有技术手段或工具采集到的;R表明相关性(Relevant),是 指监控指标与其余指标存在逻辑上的相关性;T表明时限性(Tine_bound).是指监控指标的获取要有时间周期的限制。
5.指标体系的肯定。通过上述过程,明确了哪些指标须要监控,指标之间的层次和依赖关系,重要程度等信息。经过这些信息,就能够清晰地构建一个层次化的指标体系
4、小结
创建IT运维监控指标体系是提高运维管理、ITIL落地实施中最为基础,也是最重要的环节。从此咱们对于系统运行健康情况的判断,不只能够像中医同样的“望、闻、问、切”,还能够像西医同样的“×××、化验、作CT、专家会诊、打疫苗和预防宣传”。从而让“定量分析”与“定性判断”相结合,“运维经验” 与“实时数据”相结合,“前期开发”与“后期运维”相结合,打通系统开发和运维管理工做界面,使IT统一运维监控管理不只为防范运维风险提供及时预警和综 合分析功能,同时也为优化应用系统性能提供了详实和科学的参考依据。