山石网科-Hillstone-HA(高可用)A/P环境固件版本业务平滑升级终结经验篇

各位,好web


咱们在常见的企业边缘的网络架构中常常会遇到高可用、堆叠、VRRP等双机部署情景,那我在前面介绍的一些案例当中,基本都是双机部署,高可用的企业组网形式,网络

因此,基础的配置也都在前面介绍了,可是却没有介绍高可用的状态下如何升级硬件的OS的情景,这里由于在上周完成了一次(山石网科-HA)无缝迁移,因此咱们这里特地总结以下思路,架构

与各位分享,欢迎你们参阅指正。ide


厂商给出的升级解决方案书:【我这里也列出来下,你们能够参考下,毕竟个人处理思路和厂商不一致】函数

抵达客户现场前,首先肯定客户使用设备目前的版本信息,本次升级的目的,并提早下载好须要升级的版本。抵达客户现场后,在升级前,仍需作如下准备工做。工具

1.  Consle 登陆两台防火墙,使用 show configuration 查看两台设备的当前配置,并备份设备配置。(一样可以使用 WebUI 登陆设备并进行配置备份)测试

2.  使用命令 show ha group 0 查看两台设备当前的主备关系,并关闭两台设备的HA 抢占spa

【Allen回复:实际更换中,除了HA抢占,还有须要关闭monitor】日志

3.  开启 TFTP,并将升级的版本放置 TFTP 文件夹。使用以下命令上传新 OS,并将原 OS 做为备用 OS,新上传的 OS 做为新 OS。excel

HillstoneSA_B# import  image  from  tftp  server  192.168.1.254

SG6000-M-2-5.0R3P12.bin

#########################################################

#########################################################

#########################################################

Verified OK

Remove existing images and save? [y]/n: y

Saving ................................................................

Checking saved firmware .............................. OK

Set SG6000-M-2-5.0R3P12.bin as active boot image

【Allen回复:如今都web上传了,谁还用tftp,这一步就差评,不够体谅用户技术水平】


为备机进行升级

1. 拔掉备机业务线及 HA 心跳线,使备机下线关闭两台设备的 HA 需使用命令 no HA cluster1;

2. 重启备机,升级备机固件版本;

3. 待备机升级成功后,使用命令 show version 查看设备当前版本,并使用 show configuration 对比备机原配置和当前配置;

【Allen回复:这一步没有建议使用什么工具对比,难道要肉眼看?没考虑用户】

4. 拔掉主机业务线及 HA 心跳线,让主机下线;

【Allen回复:这里描述太粗,由于拔掉和备机上线是一块儿的操做】

5. 链接备机业务线及 HA 心跳线,此时业务流量走备机;

【Allen回复:这里主机的业务线和HA心跳线须要接入吗?若是接入,为何不在升级以后再链接主设备】

6. 观察备机工做状态,确保业务能够在备机上正常运行。

【Allen回复:这一步彻底能够在切换流量后一块儿确认,多余】


为主机进行升级

1. 将 OS 上传至主机,并设置为当前 OS,对主设备进行重启;

2. 待主机升级成功后,使用 show version 查看设备当前版本,并使用命令 show

configuration 对比设备的原配置和当前配置;

3. 使用命令 ha group cluster1 在两台设备上开启 HA;

4. 链接主机业务线和 HA 心跳线;

5. 待 HA 成功协商后,使用命令 preemt 为主机配置抢占,业务流量从新恢复到主机;

6. 观察主机业务状态,确保业务能够在主机上正常运行。

【Allen回复:为备/主机进行升级、这俩个步骤在描述中,用户会默认认为先进行备机,可是在整个实施过程中,这两步是有不少须要同时进行的,这里描述太粗,差评】


其余升级注意事项:

  1.  最好在抵达客户现场前提起拿到客户设备的当前版本和配置,能够在公司使用测试设备对升级方案进行验证。

【Allen回复:客户怎么有可能有一样的设备,做为原厂应该提供升级测试报告+升级计划建议书,而不是仅仅提供升级计划建议书】

2.  因为设备切换间会有短暂的断网,需与客户提早沟通,确认具体的升级时间计划。

【Allen回复:我我的在整个升级过程中,客户业务彻底没有任何中断,甚至丢包也之多只有3个,这很明显发现,这份建议书在技术上是有很大瑕疵的】




我的梳理后的操做步骤:(请现场同事同时记录全部操做细节和完成时间)

PS:为何要作这一步,由于咱们是一家专业的技术服务公司,因此咱们队每个步骤都须要记录,以供咱们在后期复盘与思考。这样会有更多的总结出来。因此咱们特地记录了每个节点的时间。红字为我我的记录时间。


1.将主备防火墙配置文件web导出,本地备份(共计两份)-可提早操做将主(备)设备抢占功能关闭、HA检测关闭,当前配置:主防火墙有抢占、主备均挂在了track

总耗时:1分51秒

              

2.本地web执行上传OS,主备同时进行,升级---【该步骤可提早给备防火墙实施】,并点击暂不重启按钮。

总耗时:3分45秒


3.console接入备机,将备机设备剥离安能网络环境,业务线、心跳线、内网线路所有拔掉,并将备机HA群集ID,no掉。使其不运行HA协议,单机跑

总耗时:1分钟内


4.本地console重启备机,使OS版本为前面上传的最新版本。

总耗时:4分钟


5.备机OS固件升级完成后,console:show version查看运行的版本,并使用show configuration好比当前配置文件。【notepad++或excel函数比较观察】

总耗时:2分钟


6.备机升级OS后配置文件确认无误后,并确认没有运行HA协议后进行流量切换的动做-预计可能会存在中断1分钟内

总耗时:1分钟

主业务丢包:小于4个(用户彻底无感知)


7.在步骤6切换过程当中,同时进行console接入主防火墙将主防火墙剥离安能网路环境,业务线、心跳线、内网线路所有拔掉。完成原备机流量的切换,全部线路(业务、心跳(down状态)、内网),使流量切换至备防火墙。

总耗时:1分钟


8.将备机的HA协议起来,即:目前正在跑流量的设备,切记这里不要挂HA的检测

总耗时:15秒


9.确认流量切换完成后,进行主防火墙重启,使OS为前面上传的最新版本。

总耗时:3分13秒


10.比对主防火墙配置文件,查看版本,notepad++、excel对比确认

总耗时:2分钟


11.将主防火墙和备防火墙的HA心跳线互联,确认HA状态协议是否正常:show ha group 0---成功时【此时协商日志翻动】,并确认无抢占

总耗时:18秒


12.console接入主防火墙,接入主防火墙业务、内网线路。确认HA状态,并观察业务网络是否受影响,详细观察并测试主备防火墙公网虚拟IP、管理IP(BGP、CTC),是否正常Ping通,若业务存在影响即刻“拔掉”主防火墙全部线路。

总耗时:1分钟

业务观察时间:2分钟


13.通知客户团队,协同确认全部监控是否已经正常恢复。

总耗时:1分钟

客户团队确认业务耗时:15分钟


14.console接入主防火墙,配置HA抢占功能。还原升级前主备角色。

语法:show ha group 0 先确认ha状态

Hillstone-A(config)# ha group 0

Hillstone-A(config-ha-group)# preempt

总耗时:35秒


15.模拟设备故障,测试高可用角色热切换。观察业务地址丢包状况并记录。

总耗时:15秒

丢包状况:丢包1个(接受范围内)


16*. 在维护窗口60分钟中,若在40分钟内依据升级流程未完成任务,执行回退工做。


IDC机房现场同事实际记录时间为:

11:45 开始执行操做

11:48 备防火墙固件上传成功

12:00 拔掉全部备防火墙网线,并重启备防火墙,确认备防火墙固件版本升级成功

12:07 配置比对完成,准备作流量切换操做

12:09 打电话给用户目前下一步action可能会中断业务,确认是否能够接受操做

PS:这一步是存在疑问的,由于维护窗口已经确认,那期间全部操做是已经被受权的

12:11 用户告知30分以后方可操做

12:30 确认操做并执行切换,并同时将主防火墙网线所有拔掉

12:31 观察生产业务状况

12:32 确认业务正常,仅丢3个包

12:34 升级主防火墙的固件OS

12:36 将备防火墙的HA协议启用

12:38 确认固件升级完毕,重启主防火墙,使其固件版本升级成功

12:40 开始着手比对升级先后的配置文件

12:45 主防火墙配置比对结束

12:47 链接主防火墙和备防火墙HA心跳线路,并使确认HA协议运行正常

12:51 观察HA双机配置文件

12:53 与用户沟通是否能够进行演练主备切换

12:59 模拟故障切换,切换期间业务IP丢包1个

13:01 确认这次升级计划完成

PS:因中间客户告知30分钟以后才能够执行,故回退计划时间顺延20分也就是13点,咱们在此时间内已确认升级计划结束。



综上,就是我在给山石网科双机升级时候的总体思路,并在真实环境中获得了充分的验证,确实准备充足后,实施的过程不会出现任何差错,别很是顺利的完成了升级。关键是客户彻底没有任何感知,这个是这次案例中,我做为割接的“主刀”工程师的最自豪的地方。


因此这里,再次唠叨一句,你们不要太关注技术实现,适当的注意思路还有文档的撰写。

                  —————来自一家二级运营商的网工分享,勤奋、努力、专一,除了这些没别的秘诀!!

相关文章
相关标签/搜索