大型集团企业中,集团旗下各公司一般会独立建设数据中心以及一系列的IT运维系统。
算法
随着IT技术的发展,运维需求愈来愈多样,运维系统的架构也愈来愈复杂,各公司分别独立建设运维系统的技术和成本要求愈来愈高,所以愈来愈多的大型集团企业开始转变思路,考虑建设集团统一的一体化运维系统。shell
本文将介绍大型集团企业如何引入互联网理念和技术打造一体化运维系统,为实现信息化、数字化转型奠基基础。设计模式
通常大型集团企业会根据业务板块、地域或者收并购的方式在旗下设立多个公司或事业部,每一个公司或事业部下又会设立多个子公司或子事业部,每一个公司或事业部相对独立的运营某块业务,但彼此之间也有着紧密的联系,以下图所示:安全
因为每级组织的每家单位都承担着独立的业务职责,每家单位都有自主建设IT系统的权限,所以通过多年的运营集团旗下的单位可能都建设了一个或多个IT数据中心,运行着大量的IT基础设施、业务类系统。服务器
为了保障各级单位的IT基础设施和业务系统的稳定、高效和安全运行,集团旗下各级单位通常还会分别独立规划、建设一整套的IT运维系统。例如,下图所示的安全和运维支撑类系统:架构
从一体化管理、协同融合、数字化转型角度出发,这种各级单位“烟囱式”、“分散式”的IT运维系统建设模式主要存在以下问题:框架
系统多样且架构复杂运维
因为没有进行统一规划,各级单位多年以来独立进行IT运维系统的规划和建设,已经累积了大量不一样厂商、不一样架构的运维产品或者各单位自建的运维系统,每个单独的运维系统都负责解决该单位某一个方面的运维需求。机器学习
例如IT监控类系统中的服务器监控系统就可能包含微软、惠普、IBM、中软、北塔、Zabbix等多个厂商的产品。分布式
系统之间难以横向协同
因为各种IT运维系统的厂商、架构各不相同,彼此之间没有接口进行协同交互,同时因为各系统的数据规范和格式各不相同致使在数据方面也没法有效统一。
例如,IT监控系统中的配置数据与ITSM中的配置数据差别性较大,没法打通共享;IT监控系统自动采集的配置数据没法自动匹配、更新到IT资产系统;各单位的安全设备及安全类系统厂商不一样,所能提供的安全指标差别较大,致使公司层面没法进行统一的安全指标展现和横向对比。
运维数据质量差、没法发挥价值
因为各单位的IT运维系统的数据没有统一的标准规范,各项数据准确性、一致性较差,数据质量问题突出,而且难以推行统一的质量改进方案。
所以,也没法基于各单位已有的运维数据进行分析、挖掘和应用,数据价值不大,没法实现统一化运营。
系统建设和运维成本持续增长
因为各单位的IT运维系统独立规划、建设、部署和运维,随着IT运维需求的复杂度逐步增长,更多数据化、自动化、智能化的运维需求不断提出,且全部单位大部分的运维需求都相似。
若是各单位继续独立规划建设运维系统,将致使整个集团层面的整体系统建设、运维成本持续增长,存在大量的重复投资。
新技术运用良莠不齐
传统的IT运维系统技术落后,难以适应当前企业级应用快速开发、精细化管控要求。随着新的互联网技术的不断涌现和成熟,各单位分别自行引入新技术,势必将会形成大量的重复研究投入,而且技术应用程度良莠不齐。
基于对大型集团IT运维现状的分析,为了可以知足愈来愈复杂的IT运维需求,实现运维数字化转型,须要大型集团化企业转变运维系统的建设思路,由本来的“烟囱式”、“分散式”的建设模式转变为“一体化”、“集中式”的建设模式,引入互联网的新兴技术和工具打造一站式IT运维业务“ERP”。
为了知足复杂的运维需求,且兼具良好的扩展性,一体化IT运维系统的总体设计思想以下:
平台+应用模式:
创建一体化运维系统的基础平台,运用场景输出模式,对应用功能进行解耦
提供便捷快速服务组合功能,各分子公司可根据实际管理须要实现个性化运维应用,全面支撑以运维场景为视角的全生命周期运维管理
IT运维功能全覆盖:
覆盖企业现有IT资产配置管理、IT基础设施监控、IT应用监控、IT服务管理、IT安全监测、IT呼叫、IT设施巡检等功能
同时须要为将来自动化、智能化运维场景预留扩展能力,构建监、管、控于一体的运维管理
统一门户、集中部署:
创建全集团统一运维门户,实现全集团运维统一入口,服务与支持全景展现
采用一级部署模式,平台及应用均部署在集团总部一级,分子公司部署本地代理用于集成和管理各级单位的IT基础设施和系统
先进技术架构:
摈弃传统单体设计模式,采用业界先进的PaaS+微服务的设计模式
利用分布式、高可用技术实现平台高可用、高性能
采用开放式标准化的平台接口设计,支持基于平台进行场景式扩展开发
通过对目前行业内的多种互联网公司技术和平台的研究对比,目前国内最早进、体系最完整的运维系统架构当属腾讯公司的研运一体化PaaS平台。
如上图所示,平台是一套能适用于各类不一样IT数据中心的多层次可扩展的研运一体化能力平台:
IaaS层:可以支持企业传统的数据中心、虚拟化、私有云、公有云、混合云等各类IT基础设施。
PaaS层:可以提供配置管理、容器服务、管控服务、大数据计算、大数据存储、机器学习算法等先进的互联网技术以及基于这些技术研发的配置平台、做业平台、管控平台、容器平台、数据平台、开发框架等多种模块化、可复用的能力。
基础SaaS层:可以提供持续集成、发布变动、故障处理、体验优化、辅助运营、运营安全等多种IT场景中使用的应用系统和工具,知足企业IT在“持续集成-持续部署-持续运营”(CI-CD-CO)的全生命周期开发运营一体化的需求。
场景SaaS层:经过提供底层的开发运维能力和工具,可以支撑企业根据自身的需求构建各类复杂的、个性化的、知足特定场景的应用系统。
根据大型集团化企业的IT运维需求,结合先进的互联网技术思路,能够基于平台设计以下图所示的一体化IT运维系统架构:
集团总部集中部署一体化IT运维系统,面向全集团总部及各级单位的用户提供访问。
每一个分子公司部署本地代理服务器,实现对本地IT数据中心的基础设施和应用系统的监、管、控,同时经过数据总线与集团总部的一体化IT运维系统集成:
采集代理:
负责对各单位本地的基础设施和应用系统的配置信息、关联关系、性能信息、运行状态等进行采集,并经过数据总线将采集信息上报到集团总部的采集中心,进而提供给各运维场景应用使用。
管控代理:
负责对各单位本地的基础设施和应用系统进行操做控制,包括文件下发、命令执行等,与集团总部的管控中心协做,接受来自集团总部各运维场景应用的操做指令,如服务启停、文件替换等。
数据代理:
负责接收各单位本地的基础设施或者应用系统发送的各定义格式的运维数据,并经过数据总线将运维数据上报到集团总部的数据中心,提供给各运维场景应用分析或展现。
服务代理:
负责将集团总部的一体化IT运维系统提供的API接口进行注册、封装、转换提供给各单位本地应用系统调用,或者将各单位本地应用系统提供的API接口进行注册、封装、转换提供给集团总部的一体化IT运维系统调用。
近期笔者参与了国内某大型集团企业的一体化IT运维系统的规划和建设,该企业集团下辖10多家二级单位、200多家三级单位,在项目开展前每一家单位都分别建设了大量的IT运维系统。
本次项目经过引入上述平台,基于“平台+应用”的模式全新构建了一套全集团的一体化IT运维系统,面向全集团全部单位数千名IT运维人员提供一站式IT运维综合管理系统,并支持各单位基于该系统自主扩展个性化的运维场景。
该一体化IT运维系统主体功能在集团总部集中部署,在二级和三级单位部署平台本地代理,将各单位海量、明细的运维数据实时汇聚至总部进行统一存储及应用。
该系统以CMDB为核心,构建了IT监控、运维流程管理、自动化运维、IT呼叫、安全监测预警等场景功能,集监、防、管、控于一体,从技术上实现了安全、运维业务的全面融合。
同时,经过该系统的上线,该企业实现了从传统手工运维、脚本运维向自动化运维、智能化运维的转变,推动了运维工做的标准化、规范化和体系化,下降了运维成本,提高了运维部门价值。
做者:鲍胜全
技术文章