使用Veeam Backup  & Replication中的Replication复制功能,将虚拟机从源端复制到目标端,如何很好的利用好复制后的备份呢?在生产系统出现问题时,可以进行failover故障切换,切换过后有一个确认的过程,如果切换后运行正常,可以执行永久切换,如果测试不正常,可以回档

Failover为故障转移、故障切换的意思,即将源端的虚拟机上的负载切换至DR灾难恢复站点的复制虚拟机上

Failback为故障恢复,即将灾备站点的复制虚拟机上的负载切换回源端虚拟机上

各个概念的一些差异和区别:

 Replica Failover:将负载从生产端切换至复制端虚拟机,是一种临时的中间状态,只能恢复到目标虚拟机的某一个还原点,还原点后改变的数据无法同步至复制虚拟机,与源端虚拟机不完全一致。

 Permannet Failover:永久故障转移,即对Replica Failover的状态进一步确认和提交,确定将源端虚拟机负载转移至复制端虚拟机上,复制虚拟机的状态同Replica Failover。

 Failover Plan:对于多个有依赖关系的源端虚拟机,确定好各个虚拟机的切换顺序和间隔时长,依次进行故障转移。

 Planned Failover:对计划停机、计划的硬件维护等,事先安排好的,将生产端的虚拟机负载切换至目标端复制虚拟机,复制虚拟机和源端虚拟机数据是一致的。

 Undo Failover:生产端虚拟机故障转移至目标端后,可以执行永久切换(Permannet Failover),也可以对故障转移进行撤销,即回退到最初的状态,工作负载切换回生产端。

 Replica Failback:将复制端虚拟机负载切换回生产端,是复制端虚拟机全部传递到生产端,是一种中间临时状态,需要进一步操作。

 Commit Failback:对Replica Failback负载从复制端虚拟机切换回生产端虚拟机进行提交确认

 Undo Failback:对Replica Failback负载从复制端虚拟机切换回生产端虚拟机进行撤销,撤销后工作负载依然回到灾备站点的复制虚拟机。


1. Replica Failover

Replica Failover在目标端基于某一个还原点恢复虚拟机的完整功能,可以快速的启动起来,执行failover操作时,源虚拟机依然可以正常运转,完成必要的测试工作后,我们还可以撤销failover,回到原始的状态。如果源虚拟机和目标虚拟机处于同一网络,源虚拟机和目标虚拟机要同时运行时,可以暂时断开源虚拟机的网络,以免IP冲突。

推荐使用failover操作,避免手工开启replica虚拟机电源,避免丢失重要数据。

failover操作的方式:

(1) VBR从必要的复制链中的快照进行还原

(2) VBR启动replica虚拟机,replica虚拟机状态由normal变为failover,如果只是测试使用,源虚拟机还在正常运转。只有当replica VM的状态由failover转变为normal时,replication activies才可以正常进行。

(3) 所有对复制虚拟机的改变都写入到了一个变化文件的快照中

clip_image002

failover是一种中间状态,需要进一步作操作,可以执行undo failover,failback,permanent failover.灾难恢复场景中,在测试完成后,应该执行下一步的操作。

2.Permanent Failover

执行permanent failover后,将永久的将源虚拟机切换至复制虚拟机,复制虚拟机将替换掉源虚拟机。适用于源虚拟机和复制虚拟机位于相同的站点,拥有相近的资源,这样切换后用户正在进行的操作感觉不到延迟。

permanent failover处理方式:

(1) VBR移除复制虚拟机的还原点,并删除datastore中的相关文件,所有写入的数据都提交到变化文件的快照中。

(2) VBR从Veeam Replicaiton console中移除从replicas列表中VM replica

(3) 为了保护复制虚拟机在执行Permanent failover后不被破坏,VBR重新配置复制任务,将源虚拟机添加到复制的排除列表,下次复制任务执行时将不会复制源虚拟机。

clip_image004

clip_image006

3. Failover Plan

当正在运行的虚拟机存在着相互依赖关系时,可以使用failover plan,来确定各个虚拟机的恢复的先后顺序,并设置好启动的虚拟机之间的延迟间隔时间,默认为60秒,除了最后一个虚拟机外。一次最多只能恢复10个,如果超过10个,则会进行排队,即第一个恢复完成后,才会启动第11个虚拟机的恢复。与failover类似,Failover Plan也是一种中间状态。

clip_image008

clip_image009

启动Failover Plan

在Failover Plans列表中,选中一个任务,右键,点击start可以恢复到最新的还原点,如果想恢复到指定的还原点,可以使用start to选项

clip_image011

4.Planned Failover

如果主站点计划停机,则可以以最小的中断切换工作负载从主虚拟机到复制虚拟机,比如对数据中心进行迁移、维护、软件进行时,可以执行Planned Failover.

Planned Failover处理过程:

(1) failover进程触发replication job执行增量复制,将未复制的数据同步到复制端

(2) 源虚拟机关机

(3) failover进程触发replication job执行另外一次增量复制,同步最后一分钟产生的增量变化部分。

(4) 虚拟机切换至复制端。

(5) 复制端开机启动。

clip_image012

注意:这个过程是设计用来将当前工作负载传递到目标端的,不建议选择一个还原点来进行切换。

在Planned failover过程中,VBR创建了两个辅助还原点,我们可以利用它来做回滚等操作。

主站点主机在线后,我们还可以切换回去,操作类似unplanned failover,包括:undoing failover, permanent failover or failback.

clip_image014

5.Undo Failover

可以使用undo failover将复制虚拟机恢复到failover前的状态。VBR将复制虚拟机关机,并恢复到快照链中最近的快照。写入变化快照文件中的数据被清理,虚拟机恢复到normal状态,源虚拟机中复制活动可以继续进行。

clip_image015

clip_image017

6. Replica Failback

在前期进行了Failover操作,将虚拟机的负载从生产环境切换到了目标端,运行了一段时间,如果想把负载从DR容灾端切换回生产环境,可以使用Replica Failback,此操作会将目标端的完整数据完全同步到生产端,可以有如下三种方式:

l Failback回源主机的源虚拟机

l Failback回前期通过备份还原到的一个新位置的虚拟机

l 传递完整的文件,Failback一个完整的全新的位置的虚拟机

前两种方式只需要传递增量部分,第三种方式传递完整的虚拟机

Failback工作方式

(1) 如果源主机处于开机状态,VBR将源主机关闭

(2) VBR对源主机创建一个failback快照

(3) VBR计算源虚拟机和复制虚拟机切换状态时的差异部分

(4) VBR传递差异部分到源主机的delta文件的快照中

(5) VBR关闭复制虚拟机直至提交failback或者撤销failback

(6) VBR对复制虚拟机创建一个failback保护快照

(7) VBR再次计算在最后执行failback过程中的源虚拟机和复制虚拟机的差异部分,再次执行同步操作

(8) VBR移除源虚拟机上的failback快照,将Delta变化文件提交到源虚拟机

(9) 复制虚拟机的状态从failover切换为failback。VBR将源主机上的复制活动挂起,因为这时切换只是一种中间状态,还需要后续对这个failback状态进行提交或撤销回failover状态。

(10) 如果选择了源主机开机选项,VBR将会对源主机进行开机操作。

clip_image019

Failback on VSAN:由于VSAN数据存储组织特性,VBR无法获取到位于VSAN中的VM replica与源虚拟机磁盘的差异部分,所以在两次的计算差异部分均需要读取复制虚拟机所有的磁盘数据,然后只传递差异的部分。

Quick rollback选项

(1) VBR不会从复制虚拟机查询整个磁盘文件,而是只查询CBT获取差异部分

(2) 使用场景为复制虚拟机操作系统层面的错误,如在复制虚拟机上应用程序错误或者误删了文件。如果在复制虚拟机上发生了硬件、电源或存储故障,不要使用Quick rollback选项

(3) 必须是failback到源位置,源虚拟机开启CBT,复制虚拟机创建时使用了“Use changed block tracking data ”选项。

clip_image021

7. Commit Failback

确认Failback操作,完成恢复到源虚拟机,需要对Failback进行提交Commit

(1) VBR将复制虚拟机状态由Failback更改为Normal

(2) 如果是还原到一个新的位置,VBR重新配置复制任务,将之前的源虚拟机添加到排除列表,新的还原的虚拟机取代了原来复制任务中的源虚拟机,新复制任务开始时,VBR将会处理新的被还原的虚拟机,而不是原来的源虚拟机。如果是还原到原位置,则VBR按正常模式处理。

clip_image022

clip_image024

8. Undo Failback

当负载从复制虚拟机迁移到生产环境,而没有提交Commit时,发现生产环境的虚拟机工作不正常,可以Undo Failback撤销.

(1) VBR删除VBR保护快照

(2) VBR将复制虚拟机状态由Failback改为Failover

clip_image026clip_image027