ECS主动运维2.0,体验升级,事半功倍

摘要: 阿里云致力于提供更好用的运维体验,让您使用ECS的过程更透明、高效,并实现更加标准化、自动化的运维方式。基于主动运维2.0,您使用ECS云服务器的体验更加流畅,并且利用系统事件,再也不依赖于工单联系客服,能够经过自助处理的方式响应主动运维实例重启,减小对系统可靠性和业务连续性的影响。安全

     

云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您下降 IT 成本,提高运维效率,使您更专一于核心业务创新。当您基于ECS云服务器搭建了业务系统,借助云计算的诸多优点和特性,能够实现对业务需求的敏捷响应和对业务连续性的有力保障。在此基础上,阿里云致力于提供更好用的运维体验,让您使用ECS的过程更透明、高效,并实现更加标准化、自动化的运维方式。服务器

 

主动运维框架

      阿里云使用严格的IDC标准、服务器准入标准以及运维标准,保证云计算整个基础框架的高可用性、数据的可靠性以及云服务器的高可用性。对于单台ECS实例, 阿里云承诺一个服务周期内单台ECS实例的服务可用性不低于99.95%;对于单地域多可用区,阿里云承诺一个服务周期内该单地域多可用区的服务可用性不低于99.99%。运维

 

      咱们知道,在基础设施层面,始终存在一些潜在因素如软件bug或硬件故障等会影响ECS实例的运行,所以为了保证上述高级别的服务可用性,除了云计算基础框架的高可用性设计之外,ECS主动运维不可或缺。主动运维做为ECS的隐形卫士,会主动对承载ECS实例运行的物理服务器作平常维护和故障检测,并尽量经过在线或轮转升级的方式修复潜在的故障隐患,以持续提高系统可靠性、性能和安全防御能力,保障云服务器稳定运行。分布式

 

      但对于某些状况,物理服务器须要重启或停机维护,这时主动运维系统会向该服务器上的ECS用户发送消息通知,提示您的ECS实例须要重启迁移至健康的物理服务器之上。此前,用户接到这样的通知后须要提交工单联系客服人员受权处理,随着主动运维2.0的进化,这方面的体验获得多方面的提高。性能

 

体验升级阿里云

 

1. 主动运维热迁移,实例运行不中断云计算

     

当主动运维检测到物理服务器存在故障风险时,系统会优先尝试将该服务器上的ECS实例在线热迁移至其余物理服务器,热迁移成功的实例不会中断运行,其业务能够保持在线;只有少许热迁移存在风险的实例才会进入主动运维重启迁移流程。此策略升级后,有效减小对用户业务连续性的冲击,在阿里云用户规模快速增加的状况下,主动运维相关工单数量同比降低125倍!设计

 

2. 风险提示更清晰,迁移影响提早知blog

     

对于有必要进行重启迁移的实例,阿里云会提早向用户发送消息通知和针对性的提示。因为本地存储(本地盘)来自单台物理服务器,不基于多副本分布式技术,在迁移时本地盘所存储数据会被擦除,所以对于本地盘实例,通知中明确提示该风险并提醒您在迁移前及时备份数据。对于云盘实例,通知中提供操做引导,您再也不须要提交工单联系客服人员,能够直接在控制台或经过API处理实例重启迁移。

 

3. 不用工单找客服,系统事件来帮忙

 

云盘实例重启迁移的自助处理功能在控制台和API上线,当您受到重启迁移的系统计划事件时,能够知晓该事件的执行计划。以下图所示,根据您的业务须要,能够选择当即执行重启、预定在业务低峰期执行重启、或等待系统按计划执行,作有准备的运维操做。这样的过程再也不须要依赖工单处理,提升效率的同时减小实例重启对您在行业务的冲击。

 

 

 

 

事半功倍

 

      正如上面提到的体验改进,“事”半功倍,除了主动运维流程进化,还来源于系统事件的发布。系统事件有利于提高用户对于ECS运行状态变化的感知,并进行有针对性的操做来响应或规避事件对在行业务的影响。经过系统事件的闭环,将更多的运维场景标准化、自动化,让用户得到更好的额云上运维体验。

 

原文连接

阅读更多干货好文,请关注扫描如下二维码:

相关文章
相关标签/搜索