业界最佳虚拟化容灾解决方案体验

时间 2020-01-27

原文原文链接

一个企业要想走向云，必须经历虚拟化的阶段。

你们都在朝着云的方向努力，愈来愈多的用户开始大规模应用虚拟化，还有不少用户把核心应用也迁移到虚拟化平台了。

因而，虚拟化平台的可用性愈来愈受到关注，高可用，数据保护和容灾成为了热门话题。

VMware的vCenter SRM是一个专为vSphere虚拟化平台所设计的容灾方案，简单高效，若是你想亲自体验一下这个方案，那就参考下面的评估指南吧，由西蒙带你开始SRM的体验之旅。

硬件环境准备：

至少两台服务器（2 CPU，16G RAM以上），两台存储（须要可以配置复制，FC,iSCSI或NAS都是能够的，具体型号见兼容性列表： http://www.vmware.com/pdf/srm_compat_matrix_4_0.pdf），LAN及SAN网络链接设备。

条件容许的话，能够准备三台服务器，在主站点建议HA的环境，体验HA+SRM的效果。

若是没有硬件存储，也能够用Falconstor NSS一类的软件来代替，我在Falconstor的网站上注册了好几回，都说获得批准了，可就是没有收到邮件。

下面是架构图，供参考，咱们能够简化一下。

安装过程简述

1，安装ESX/ESXi；

2，建Windows虚拟机，安装OS，安装vCenter和vSphere Client，建议两个vCenter服务器安装成Linked Mode，这样链接到一个vCenter服务器就能够管理两个vCenter上面的资源了；

3，建datastore，并在存储设备上配置datastore所在的存储位置（Lun或nfs）的复制关系。

4，在配置了复制的datastore上建立测试虚拟机，在虚拟机内部安装测试应用，如SQL，Exchange等常见应用。

5，在VC上安装SRM，并安装与存储配套的SRA，安装完SRA后要记得重启SRM服务。

6，在vSphere Client上安装SRM的插件。

准备工做是比较费时的，可是并不难，详细的步骤就不介绍了，你们能够参考我以前写的一些文章。提供两个网址，能够下载vSphere和SRM的技术文档：

VMware vSphere:

http://www.vmware.com/support/pubs/vs_pubs.html.
VMware vCenter Site Recovery Manager:

http://www.vmware.com/products/srm/resource.html.

容灾切换与容灾演练流程

容灾切换流程：

1，若是相关虚拟机仍然运行在主站且可在容灾站访问，则中止这些虚拟机。

2，挂起存储复制，在复制端启动读写功能。

3，从新扫描以发现FC或iSCSI设备，若是是NFS设备直接挂载。

4，注册副本虚拟机到vSphere。

5，若是须要，中止容灾端正在运行中的非关键任务虚拟机以提供计算资源。

6，按顺序在容灾站点启动虚拟机。

7，生成报告。

容灾演练流程：

演练不需中止生产端，不会形成没必要要的停机时间。

1，在容灾站点生成一个隔离环境以检验容灾系统的有效性。

2，从新扫描以发现FC或iSCSI设备，若是是NFS设备直接挂载。

3，注册副本虚拟机到vSphere。

4，若是须要，中止容灾端正在运行中的非关键任务虚拟机以提供计算资源。

5，按顺序在容灾站点启动虚拟机。

6，验证服务的有效性，复制演练所作的改变。

7，生成报告。

配置恢复工做流

1，设置站点配对，用SRM管理器配置主站点到容灾站点vCenter的链接。须要提供vCenter的地址和管理员帐号。

2，为须要复制的datastore设置Array Manager。须要提供存储设备的管理地址及管理员帐号，要确保Manger Type选择正确，若是找不到匹配的Manager Type，则说明对应的SRA没有正确安装在SRM服务器上。配置好之后，SRM将链接到存储上，检查存储的复制状况，已经配置好复制的将显示绿色对号。

3，配置清单映射，把两个站点中的资源（包括网络，资源池和虚拟机文件夹）进行关联，你并不须要为全部的对象指明关联对象，只须要对与容灾相关的组件进行配置，以下图中的例子，只为三个对象指定了对应资源：

4，配置保护组。

首先给出保护组的名字和描述，接下来要选择Datastore组，这个组是根据Array Manger的报告生成的，与你的复制配置有关。接下来要指定用于建立Placeholder VM的Datastore，占位符体积很小，能够选择任意Datastore，可是请不要选择复制存储对应的Datastore，它要随时与源Datastore保持一致。

5，配置恢复计划。

进行操做以前，要链接到容灾站点的SRM，在VC4.1中，能够直接在vSphere Client的管理界面中切换：

接下来指定名字，选择对应的保护组，接下来是两个超时值的设置，网络超时是指若是到了指定时间虚拟机尚未完成网络的配置，则记录错误，继续流程。虚拟机心跳超时是指到了指定时间没有收到虚拟机心跳信息则记录错误并继续流程（虚拟机内必须安装有vmware-tools），这两个值要计算好，取最长操做的时间值，不然可能会致使误报。接下来指定用于测试的隔离网络，而后指定哪些运行在容灾站点的虚拟机在须要时能够停下来释放资源。

6，配置IP自定义。

若是要配置的虚拟机较多，能够采用名为dr-ip-customizer.exe的工具进行批量配置，测试时虚拟机较少，能够直接使用VC的自定义配置管理器来定义IP地址的改变。

建立一个新配置，只须要填写网络地址的部分。

接下来到SRM的虚拟机管理页面上，指定虚拟机使用这个配置。

7，进行一次测试。

配置完了之后，就能够开始测试了，点击测试按钮发起测试，能够随时看到进行的状态，当全部虚拟机在容灾站点完成启动后，系统会停下来等待检验，以下图，验证后点击继续，向导将自动清除测试时所作的修改。

上述的全部操做都有向导，因此在管理方面并不复杂。

配置告警和站点状态监控

SRM会监视虚拟机的CPU利用率，磁盘空间，内存消耗等。固然也会监视SRM的心跳。

vCenter监控到的事件能够做为SRM的触发条件，如：

磁盘剩余空间小，CPU利用率超出上限，内存太低，远程站点不响应，运程站点心跳丢失，测试流程开始、结束、成功、失败或取消，虚拟机恢复过程开始、结束、成功、失败或生成告警等。

知足触发告警的条件时，能够发邮件，发SNMP消息，或是执行脚本程序。

下面咱们以远程站点Down这一事件为例，来进行测试，当事件发生时，给主管发送邮件通知。

关于状态监控，也有一些高级设置能够进行修改。

实际切换测试

由于是测试环境，咱们能够随时进行实际的切换测试，与容灾演练的过程仍是有区别的，具体的流程我在前面介绍过了。由于实际的切换影响会比较大，因此在真正开始failover以前还会要管理员再次确认。

反向回切测试

Failback的过程与Failover相似，只是方向相反而己，在SRM中的配置方法都同样，下面是须要注意的内容：

1，failback以前检查failover是否成功，若是存在问题，先解决好相关问题。

2，别忘了在存储系统上切换复制方向。

3，回切前也要先进行演练，以验证整个过程能够顺利完成。

4，回切前删除掉原被保护站点上的旧虚拟机。

5，须要在原容灾端（新的被保护站点）上配置SRA及其它相关内容。

【全文完】