各位,好web
咱们在常见的企业边缘的网络架构中常常会遇到高可用、堆叠、VRRP等双机部署情景,那我在前面介绍的一些案例当中,基本都是双机部署,高可用的企业组网形式,网络
因此,基础的配置也都在前面介绍了,可是却没有介绍高可用的状态下如何升级硬件的OS的情景,这里由于在上周完成了一次(山石网科-HA)无缝迁移,因此咱们这里特地总结以下思路,架构
与各位分享,欢迎你们参阅指正。ide
厂商给出的升级解决方案书:【我这里也列出来下,你们能够参考下,毕竟个人处理思路和厂商不一致】函数
抵达客户现场前,首先肯定客户使用设备目前的版本信息,本次升级的目的,并提早下载好须要升级的版本。抵达客户现场后,在升级前,仍需作如下准备工做。工具
1. Consle 登陆两台防火墙,使用 show configuration 查看两台设备的当前配置,并备份设备配置。(一样可以使用 WebUI 登陆设备并进行配置备份)测试
2. 使用命令 show ha group 0 查看两台设备当前的主备关系,并关闭两台设备的HA 抢占spa
【Allen回复:实际更换中,除了HA抢占,还有须要关闭monitor】日志
3. 开启 TFTP,并将升级的版本放置 TFTP 文件夹。使用以下命令上传新 OS,并将原 OS 做为备用 OS,新上传的 OS 做为新 OS。excel
HillstoneSA_B# import image from tftp server 192.168.1.254
SG6000-M-2-5.0R3P12.bin
#########################################################
#########################################################
#########################################################
Verified OK
Remove existing images and save? [y]/n: y
Saving ................................................................
Checking saved firmware .............................. OK
Set SG6000-M-2-5.0R3P12.bin as active boot image
【Allen回复:如今都web上传了,谁还用tftp,这一步就差评,不够体谅用户技术水平】
为备机进行升级
1. 拔掉备机业务线及 HA 心跳线,使备机下线关闭两台设备的 HA 需使用命令 no HA cluster1;
2. 重启备机,升级备机固件版本;
3. 待备机升级成功后,使用命令 show version 查看设备当前版本,并使用 show configuration 对比备机原配置和当前配置;
【Allen回复:这一步没有建议使用什么工具对比,难道要肉眼看?没考虑用户】
4. 拔掉主机业务线及 HA 心跳线,让主机下线;
【Allen回复:这里描述太粗,由于拔掉和备机上线是一块儿的操做】
5. 链接备机业务线及 HA 心跳线,此时业务流量走备机;
【Allen回复:这里主机的业务线和HA心跳线须要接入吗?若是接入,为何不在升级以后再链接主设备】
6. 观察备机工做状态,确保业务能够在备机上正常运行。
【Allen回复:这一步彻底能够在切换流量后一块儿确认,多余】
为主机进行升级
1. 将 OS 上传至主机,并设置为当前 OS,对主设备进行重启;
2. 待主机升级成功后,使用 show version 查看设备当前版本,并使用命令 show
configuration 对比设备的原配置和当前配置;
3. 使用命令 ha group cluster1 在两台设备上开启 HA;
4. 链接主机业务线和 HA 心跳线;
5. 待 HA 成功协商后,使用命令 preemt 为主机配置抢占,业务流量从新恢复到主机;
6. 观察主机业务状态,确保业务能够在主机上正常运行。
【Allen回复:为备/主机进行升级、这俩个步骤在描述中,用户会默认认为先进行备机,可是在整个实施过程中,这两步是有不少须要同时进行的,这里描述太粗,差评】
其余升级注意事项:
最好在抵达客户现场前提起拿到客户设备的当前版本和配置,能够在公司使用测试设备对升级方案进行验证。
【Allen回复:客户怎么有可能有一样的设备,做为原厂应该提供升级测试报告+升级计划建议书,而不是仅仅提供升级计划建议书】
2. 因为设备切换间会有短暂的断网,需与客户提早沟通,确认具体的升级时间计划。
【Allen回复:我我的在整个升级过程中,客户业务彻底没有任何中断,甚至丢包也之多只有3个,这很明显发现,这份建议书在技术上是有很大瑕疵的】
我的梳理后的操做步骤:(请现场同事同时记录全部操做细节和完成时间)
PS:为何要作这一步,由于咱们是一家专业的技术服务公司,因此咱们队每个步骤都须要记录,以供咱们在后期复盘与思考。这样会有更多的总结出来。因此咱们特地记录了每个节点的时间。红字为我我的记录时间。
1.将主备防火墙配置文件web导出,本地备份(共计两份)-可提早操做将主(备)设备抢占功能关闭、HA检测关闭,当前配置:主防火墙有抢占、主备均挂在了track
总耗时:1分51秒
2.本地web执行上传OS,主备同时进行,升级---【该步骤可提早给备防火墙实施】,并点击暂不重启按钮。
总耗时:3分45秒
3.console接入备机,将备机设备剥离安能网络环境,业务线、心跳线、内网线路所有拔掉,并将备机HA群集ID,no掉。使其不运行HA协议,单机跑
总耗时:1分钟内
4.本地console重启备机,使OS版本为前面上传的最新版本。
总耗时:4分钟
5.备机OS固件升级完成后,console:show version查看运行的版本,并使用show configuration好比当前配置文件。【notepad++或excel函数比较观察】
总耗时:2分钟
6.备机升级OS后配置文件确认无误后,并确认没有运行HA协议后进行流量切换的动做-预计可能会存在中断1分钟内
总耗时:1分钟
主业务丢包:小于4个(用户彻底无感知)
7.在步骤6切换过程当中,同时进行console接入主防火墙将主防火墙剥离安能网路环境,业务线、心跳线、内网线路所有拔掉。完成原备机流量的切换,全部线路(业务、心跳(down状态)、内网),使流量切换至备防火墙。
总耗时:1分钟
8.将备机的HA协议起来,即:目前正在跑流量的设备,切记这里不要挂HA的检测
总耗时:15秒
9.确认流量切换完成后,进行主防火墙重启,使OS为前面上传的最新版本。
总耗时:3分13秒
10.比对主防火墙配置文件,查看版本,notepad++、excel对比确认
总耗时:2分钟
11.将主防火墙和备防火墙的HA心跳线互联,确认HA状态协议是否正常:show ha group 0---成功时【此时协商日志翻动】,并确认无抢占
总耗时:18秒
12.console接入主防火墙,接入主防火墙业务、内网线路。确认HA状态,并观察业务网络是否受影响,详细观察并测试主备防火墙公网虚拟IP、管理IP(BGP、CTC),是否正常Ping通,若业务存在影响即刻“拔掉”主防火墙全部线路。
总耗时:1分钟
业务观察时间:2分钟
13.通知客户团队,协同确认全部监控是否已经正常恢复。
总耗时:1分钟
客户团队确认业务耗时:15分钟
14.console接入主防火墙,配置HA抢占功能。还原升级前主备角色。
语法:show ha group 0 先确认ha状态
Hillstone-A(config)# ha group 0
Hillstone-A(config-ha-group)# preempt
总耗时:35秒
15.模拟设备故障,测试高可用角色热切换。观察业务地址丢包状况并记录。
总耗时:15秒
丢包状况:丢包1个(接受范围内)
16*. 在维护窗口60分钟中,若在40分钟内依据升级流程未完成任务,执行回退工做。
IDC机房现场同事实际记录时间为:
11:45 开始执行操做
11:48 备防火墙固件上传成功
12:00 拔掉全部备防火墙网线,并重启备防火墙,确认备防火墙固件版本升级成功
12:07 配置比对完成,准备作流量切换操做
12:09 打电话给用户目前下一步action可能会中断业务,确认是否能够接受操做
PS:这一步是存在疑问的,由于维护窗口已经确认,那期间全部操做是已经被受权的
12:11 用户告知30分以后方可操做
12:30 确认操做并执行切换,并同时将主防火墙网线所有拔掉
12:31 观察生产业务状况
12:32 确认业务正常,仅丢3个包
12:34 升级主防火墙的固件OS
12:36 将备防火墙的HA协议启用
12:38 确认固件升级完毕,重启主防火墙,使其固件版本升级成功
12:40 开始着手比对升级先后的配置文件
12:45 主防火墙配置比对结束
12:47 链接主防火墙和备防火墙HA心跳线路,并使确认HA协议运行正常
12:51 观察HA双机配置文件
12:53 与用户沟通是否能够进行演练主备切换
12:59 模拟故障切换,切换期间业务IP丢包1个
13:01 确认这次升级计划完成
PS:因中间客户告知30分钟以后才能够执行,故回退计划时间顺延20分也就是13点,咱们在此时间内已确认升级计划结束。
综上,就是我在给山石网科双机升级时候的总体思路,并在真实环境中获得了充分的验证,确实准备充足后,实施的过程不会出现任何差错,别很是顺利的完成了升级。关键是客户彻底没有任何感知,这个是这次案例中,我做为割接的“主刀”工程师的最自豪的地方。
因此这里,再次唠叨一句,你们不要太关注技术实现,适当的注意思路还有文档的撰写。
—————来自一家二级运营商的网工分享,勤奋、努力、专一,除了这些没别的秘诀!!