如何全面展示运维生态情况

本文转自微信公众号“IT运维之道”,原创: IT运维之道 IT运维之道安全

引言微信

前一阵,一家三口一块儿去了冲绳的海洋博览会记念公园。听说那里有最大的水族馆-美之海水族馆,鲨鱼在那里自由翱翔,壮丽无比。咱们一行人都是第一次前往,从那霸到海洋馆不到100千米,路程虽不长,但沿途路况复杂。咱们第一次在冲绳自驾,车从那霸出来后在乡间小道中穿行,七弯八拐,中途甚至一度起雾下暴雨,严重时连道路都看不清,但咱们从未担忧迷路。果真,通过1小时30分钟的车程,咱们顺利到达目的地。猜猜咱们是如何作到的?是的,Google Maps是咱们的信心的定海神针。运维

Google Maps极大的方便了现代人的出行,经过集成地理数据、卫星定位、实时路况和导航计算等数据和功能,人们能够精确知道本身在地图上的位置以及与目的地之间的路线和路况,人们能够去任何本身想去的地方,不论以前有没有去过。Google Maps甚至从新定义了地图,地图再也不是出行前的辅助规划工具,而是行驶过程当中的完美辅助工具,这种对地图的高频依赖在十年前是没法想象的。那时,因为纸质地图的信息很是有限,对出行帮助并不大。信图不如信人,只有老司机更懂路。分布式

Google Maps解放了人们对老司机的强烈依赖,不过,在享受Google Maps带来的巨大便利的同时,你可曾想到Google Maps的幕后英雄是谁吗?是的,就是GeoDB,它精确的记录了每一个城市、街道、建筑以及山川、河流的经纬度坐标和海拔,这些数据被称为Geo Data。Geo Data晦涩难懂,因此早期GeoDB的消费场景不多。Google Maps将晦涩难懂的Geo Data变得简单直观,下降了信息的理解门槛,从而使每个普通老百姓都可以消费这些数据,一会儿盘活了不少GeoDB。工具

运维也面临一样的问题,运维生态是由系统和人两大部分组成,系统包括了软件、硬件和环境;人包括了服务人员和客户及用户;这二者之间相互做用,相互影响,造成了动态变化的运维生态系统。而目前,整个生态的情况,每每都是各类专业数据无关联的呈现,晦涩难懂,很难让每个人(包括服务人员和用户)彻底利用好它,若是能把运维生态的这些数据有序、关联、直观地展示出来,使各工种运维人员、开发人员以及各级管理人员,甚至用户很直观地要到他们想要的信息match,并能帮助他们实时决策,成为他们的高频依赖,运维这项工做是否是变得更有意义呢!翻译

1、运维生态概述设计

 

DevOps流行了一段时间了,有大量介绍DevOps的文章,我这里就不班门弄斧了。我觉得要让开发、运维、管理、用户这四者减小摩擦,也须要一个各方都达成承认的共识,那就是达成如何建设运维生态的问题,而建设运维生态,须要两只手,即精准运维加运维质量描述。经过主动服务把精准运维工做作好,经过质量描述把运维生态的状况直观地展示出来,以运维生态的质量为基准,输出到各方,用于持续改进(PDCA)。3d

好了,那咱们先说说精准运维,精准运维是一种IT服务方法,它是要让IT运维服务工做围绕被服务对象的业务来展开,从而进行心跳同步式的服务,最大限度地利用资源,提高业务体验,实现服务价值,而不只仅是围绕信息系统自己(软硬件)来服务。精准运维有个核心思想就是主动服务,怎样主动服务呢?嗯,猜对了,那就是根据运维对象的特质以及客户的特别要求,对运维生态进行检测、分析,从而制定出计划与服务方案,根据计划方案展开行动,而后再检测分析运维生态的质量,不断PDCA作到更好。对象

那什么又是运维生态质量呢,要聊清楚运维生态质量,就得从两个方面提及,第一是系统,第二是人。先说系统,系统的质量是包括业务系统软件、基础软件、硬件以及环境(包括电力、消防、照明、机位等机房环境)的质量情况;再说人,是说在这个生态圈里人的运行情况,包括了用户(客户)-客服人员-运维人员-开发人员-管理人员等,他们的状态,涵盖了能力成熟度的范畴。把这两部分展示出来了,咱们固然就清楚事情的状况、问题的重点了。blog

 

2、如何全面展示运维生态

描述系统方面的质量,咱们能够用两个方面,如运行保障和风险控制,运行保障常见的是能够用系统的可靠性和可维护性等指标表示,即,MTBF、MTTR、MTRS等;风险控制可引入风控管理方面的指标。

人的方面在用户体验、服务规范、服务感觉以及效益上去考量。

实际上要想作到直观展示这两点,还须要细化每个展现分类,造成对每一类都有各类直观的关键项指标KPI,这样的展现就有了意义,如同咱们的导航软件,而展示的前置条件,是服务需求分析。

展示的信息是否是有用,取决于这个信息是否知足使用人的需求,就象前面的实例中描述的那样,导航的信息是否能够帮助使用人方便、快捷、安全的到达目的地,若是能够,那么此次展示有价值的。获取不一样人员对运维服务的需求,人员按照不一样的视角(客户、管理者、系统用户、运维人员)进行分类

1.   监测运维生态质量

a)   设计运维质量指标:设计相应的指标,采集到对应的质量数据;

b)   数据采集方式:实时获取,定时获取。

c)   运维生态质量KPI:

2.   运维生态质量可视化展示

a)   运维质量数据处理和翻译:对质量数据进行加工、存储、整理和分析;

b)   运用直观、易于理解的方式进行展示。

3.   数据应用----PDCA

a)   客户更加合理、明确、清晰的要求;

b)   管理团队提出更有针对性的决策;

c)   行业用户更合理的开展业务;

d)   运维团队不断改进运维服务。

如下是展示运维生态系统的指标一览表(评价指标供参考):

 

 

3、实例

 

以某信息系统为例,咱们来看看其运维生态情况是如何获得展示的。该系统是一个某制造行业的分布式系统,分别部署在全国各省市,实现对生产制造的控制和流通环节的物流跟踪。为保障该系统的稳定运行,某运维企业在全国各省均设立了运维服务团队。鉴于系统的复杂性、运维团队的数量众多,如何评价该系统的运行情况、评价各服务团队的服务质量,是一大挑战。经过运用上述运维生态展示方法,可以较为全面、客观反映系统运行状况、运维生态情况。

该系统运维情况测算按照百分制计算,反映系统运行状况的三个关键指标(MTBF、MTTR和MTRS)的平均分分别为55.四、50.一、74.3;测评时发现一次变动未及时开变动单、数据备份缺失产生2个扣分项。系统运行状况的得分状况以下表所示:

根据质量指标体系,对各指标的不一样运维组总体得分状况,从指标平均分和离散程度两个方面进行分析,具体以下图所示:

(注:离散程度本次分析中用各驻场组指标得分的标准差来表示)

从上图能够看出,不一样运维组广泛具有如下优点:

  • 在6个指标(重大事件处置水平、事件解决率、恢复时长达成率、汇报状况、现场服务工做完整性、到场及时性)上,全部运维组均取得了满分,说明运维组在这6个方面提供了高水准的服务,符合企业规范并获得了用户的承认。

  • 8个用户调研的主观类指标(汇报状况、现场服务工做完整性、到场及时性(用户及员工反馈)、运维策划能力、服务条理性、用户及员工反馈、服务效率、巡检状况)平均得分均在99分以上,且数据离散程度很小,说明各省用户对运维组工做状况十分承认。

  • 工单合格率和工做记录完整性这两个客观指标平均得分也在90分以上,指标离散程度适中,说明运维组在这两方面规范执行状况良好,各运维组之间水平差别不大,部分运维组还有提高空间。

此外,从上图还能够看出,各运维组在如下几个方面还有待提高:

  • MTBF、MTTR、MTRS三个指标离散程度相对较大,MTBF、MTTR两个指标平均分相对较低,说明各运维组之间系统运行保障的效果差别较大,尤为在系统可靠性保障方面,低于平均水平的小组较多,须要各运维组深刻研究具体缘由,提高系统运行保障水平。

  • 规范和技能水平两个指标,平均得分相对较低,离散程度适中,说明至少试卷包含的相关内容上,各运维组差异不算太大,但水平尚待提高。

  • 手机接通率指标因为本次评分以95%接通率75分为基准,从平均得分84.8上看,各运维组手机接通状况良好,可是指标数据离散程度较大,说明各组接通率差距较大,部分运维组尚有提高空间。

  • 监控执行状况指标,平均得分79,且数据离散水平为全部指标中最高,说明在监控记录上传和准确性方面,各运维组完成状况不一,大部分运维组仍需增强。

    经过上述实例运用,咱们发现很是复杂的运维生态情况,经过上述方式获得了全面、客观的呈现,不管对于客户,仍是对于运维单位自己,均具备重要的意义。一方面,可以让客户了解系统运行情况,及时予以风险控制;另外一方面,可以让运维单位针对薄弱环节予以改进和增强,提高运维服务水平。对于甲乙双方来讲,可以实现共赢。