新冠肺炎疫情爆发以后,嘉为公司在完成内部防控工做的部署同时,心系每个客户,时刻关注疫情对各大企业的业务影响,并积极配合客户在防疫期间的相关运维工做要求。数据库
以深圳某企业(如下简称SZ公司)为例,早在2月2日以前,政府对各企业复工延迟计划做出要求时,咱们便在第一时间响应客户需求,明确将按照SZ公司新型冠状病毒防控工做方案的相关工做要求,全力配合作好系统运维远程支持工做直至疫情解除,确保SZ公司业务系统稳定运行。安全
SZ公司是嘉为集团合做最深配合最默契的客户之一,也是嘉为蓝鲸最先的深度践行客户之一,基于嘉为蓝鲸自动化运维平台,双方开展了大量实践和探索,取得了显著成果。那么在疫情影响下,嘉为蓝鲸是如何助力SZ公司IT运维的?服务器
疫情影响下,全部企业IT运维不可避免地会受到各类影响,对于SZ公司可能会受到哪些方面的影响,简单从如下几个方面分析。架构
01 现场运维力量缺少运维
为了防止疫情蔓延,该公司首先响应政府号召并宣布延迟复工,开放远程办公,以最小化的标准严格限制到场人员。所以,对于企业IT运维,现场运维力量的大幅减弱,致使相似系统健康性巡检、业务需求响应、变动执行和故障应急等现场工做的响应及时率和完成度受到了较大影响。ide
02 系统安全可控性难度加大工具
SZ公司在2019年采起了一系列措施,例如:创建信息安全通报中心、按期开展系统漏洞扫描及整改等,增强企业信息安全管理,下降被***的风险,确保企业不会因安全事件致使信息泄露和财产损失。然而,随着疫情爆发,受限于远程限制,漏洞扫描和整改等工做的开展难度和效率低下将对系统安全性产生必定影响。布局
03 业务宕机风险增大spa
疫情影响下开展远程办公,针对故障的各个处理环节(例如:故障响应、故障处理和硬件维护等)将出现或多或少的延迟,对于业务系统来讲,无疑增长了业务长时间宕机的风险。操作系统
04 重点专项工做延迟风险高
疫情影响下,没法保障重点工做沟通的有效性和时效性,所以,涉及资源申请、变动审批和实施等项目工做,将没法有效开展,极可能致使各种重点工做的进度延迟,从而对核心业务造成相当重要的影响。
即使影响因素受制于客观条件较难短时间克服,可是SZ公司数据中心仍然对于运维组提出了如下基本原则要求以保障业务的正常运行。
01 人员投入能够减小,但运维效率不能下降
如上所述,疫情影响下,现场运维人员投入的被动减小是必然的。那么,在远程运维背景下,保障运维效率最小程度的下降,甚至不下降,是企业对于IT运维的第一需求。
02 人员能够不在场,但系统安全必须始终在线
由信息安全的重要性所决定,防疫期间漏洞整改等工做必须保持较高的响应及时率和整改时效性。
03 运维能够远程,但故障响应必须及时
业务系统的稳定运维是企业正常运做的必要前提,特别是对于涉及民生资源的SZ公司,承担着重大的社会责任,所以,防疫期间对于系统故障的支持力度必须获得最大程度的保障。
04 复工能够延缓,但重点工做进度不能延迟
基于远程办公的背景,如何提高重点工做的沟通效率,保证项目资源申请、变动审批和实施等工做可以高效开展,是IT运维须要重点解决的问题。
运维班组根据数据中心的要求,经过对本阶段的必要工做梳理进行分类,并与嘉为支撑团队沟通相关工具和方法造成如下工做内容。
01 系统健康性巡检
利用SZ公司远程办公工具和嘉为蓝鲸平台远程开展天天的巡检工做,巡检范围涉及数据库、中间件、操做系统、服务器、存储和光纤交换机等多个核心领域和组件。
02 信息安全保障
根据SZ公司信息安所有门工做要求,借助嘉为蓝鲸平台远程开展漏洞管理工做,涉及漏洞的全过程管控,整改范围包括操做系统、数据库和中间件等多个专业。
03 系统故障处理
主要分为常见故障的远程预处理和重大故障的现场处理。常见故障包括磁盘空间不足、CPU或内存使用率太高、物理设备磁盘故障等,可在收到提早预警下,利用嘉为蓝鲸平台进行远程预处理;重大故障包括数据库故障、存储故障和物理设备宕机等,通常须要到现场进行处理。
04 重点业务需求处理
重点业务需求包括但不限于如下:
业务架构扩展,须要新出库资源以支撑。
业务数据激增,要求数据存储扩容。
业务运维中常见的用户登陆受权,密码重置等,须要后台操做。
业务IT配置管理数据库信息维护等。
根据以上工做范围的定义和梳理分类,嘉为蓝鲸服务团队响应要求,经过嘉为蓝鲸平台提供的一系列工具软件和自助化流程配置轻松实现了SZ公司的高效运维。
01 嘉为蓝鲸自动化巡检系统:提升系统健康性巡检效率
借助自动化巡检系统的每日定时巡检任务,天天只须要1名运维人员远程查看巡检结果汇总表,IDC设备及系统健康状况便一目了然,将巡检问题提交至系统,反馈给相关专业进行预处理便可。
各种巡检APP展现:
自定义巡检任务:
巡检结果汇总:
02 现场运维力量缺少
经过嘉为蓝鲸漏洞全过程管理系统进行漏洞扫描,能够第一时间获取漏洞清单、整改对象和受影响的业务清单,再借助补丁管理平台,实现补丁一键修复,最后经过漏洞全过程管理平台进行漏洞复核,实现漏洞整改闭环,将漏洞整改的时间周期由以往的1~2周缩短至1~3天,极大提高整改时效性,使疫情下信息安全防御工做的远程支撑效率不减。
嘉为蓝鲸漏洞全过程管理系统:
嘉为蓝鲸补丁更新APP:
03 嘉为蓝鲸统一做业平台:高效处理系统故障
对于防疫期间的常见故障和变动,可经过嘉为蓝鲸做业平台批量执行脚本或分发文件等功能能进行预处理,无需登陆任何服务器进行操做,提升系统故障处理效率的同时,也下降了人为误操做的概率,更为安全高效地保障系统的稳定运行。
批量执行脚本:
批量分发文件:
04 嘉为蓝鲸资源自动化交付、基础变动自动化工具:高效应对重点专项工做
重要业务资源自动化交付
防疫期间,针对重要业务资源出库需求,可经过嘉为蓝鲸资源自动化交付平台,实现虚拟机、中间件、数据库、备份和监控等一整套资源的自动化快速交付。
重要系统基础变动自动化处理
针对重要业务存储扩容需求和用户密码重置等需求,都可利用嘉为蓝鲸基础变动自动化平台实现将平常人工处理变动请求,由运维平台自动执行处理,并在处理完成后进行闭环反馈。
05 基础条件要求——CMDB建设
要想良好地实现以上4种自动化运维场景,不可缺乏的是须要建设一套规划完善的CMDB。对于SZ公司,嘉为服务团队为该公司的CMDB作了详细规划和建设,针对业务IT配置管理数据库信息维护需求,创建配置管理数据库,对企业的IT资产进行统一管理,并联动嘉为蓝鲸其余功能模块,自动同步变动信息,为其余系统和用户提供可靠的数据源。
CMDB:
统一管理业务架构、主机、软硬件等资产配置。
配置管理门户:
IT资产报表统计,一目了然。
SZ公司于2017年开始部署嘉为蓝鲸自动化运维平台,并陆续上线了资源自动化交付、CMDB、自动化巡检、补丁管理、安全基线管理、漏洞管控平台和存储监控等十几个应用和功能模块,极大地提高了IT数据中心的服务和运维效率,助力其自动化运维成熟度和管理体系持续处于行业领先地位。防疫期间,嘉为蓝鲸自动化运维平台有效为该客户提供运维能量,助力客户IT运维团队高效开展工做,实现远程安全运维。
对于广大企业而言,随着企业的快速发展,IT技术栈愈来愈多、IT团队规模愈来愈大、运维场景个性化进一步加强、运维安全和敏捷性等对企业内部运维能力提出了更高的技术要求。除此以外,面临本次重大疫情以及将来不可预测的重大影响因素,咱们建议企业应提早考虑规划统一运维平台+自动化运维平台以提高自身运维效率和应对风险的能力。
做者:赵江彬