WSFC备份恢复

任何一项IT系统都须要备份恢复的机制,WSFC也不例外,对于WSFC,咱们主要须要关注三块内容
数据库


  1. 群集CNO VCO的备份恢复windows

  2. 群集数据磁盘,CSV内容的备份恢复服务器

  3. 群集数据库的备份恢复网络


群集 CNO VCO的备份恢复,其实就是活动目录数据的备份恢复了,正常状况下,2008R2以后开启活动目录回收站功能,即使计算机误删除,也能够恢复出来,以后再在群集管理器修复名称便可,这在前面文章已经讲过,2012开始能够直接经过AD管理中心恢复。且咱们能够经过防删,备份等方案规避,CNO,VCO一旦误删,会致使群集没法访问,没法进行群集身份验证app


群集数据磁盘,CSV内容,这点咱们能够经过DPM,或是其它工具,例如,咱们若是在群集CSV上面跑了不少虚拟机,那么是须要按期对群集上面的虚拟机作备份的,这时候若是备份工具支援,咱们能够从CSV级别去备份上面全部的虚拟机内容,防止群集共享数据丢失ide


群集数据库的备份恢复,咱们今天主要将涉及这个方面,以前,咱们说过,群集数据库是群集配置运行的核心,它储存着WSFC群集全部的配置状况,会实时的在各个节点之间及见证磁盘同步,一旦发生故障转移,节点会参照群集数据库进行故障回复
工具


群集数据库储存在节点注册表及见证磁盘,咱们备份时,使用windows server backup,DPM备份系统状态,便可备份群集数据库,群集数据库储存在系统状态中。优化


群集数据库的备份恢复主要分为两种,一种是受权模式恢复,一种是非受权模式恢复,颇有意思,有点像AD的数据库恢复同样ui


受权模式恢复spa


什么场景下会使用到受权模式恢复,例如,以前群集运行最正常的状况下,你执行了一次备份,突然有一天由于不当心操做,弄坏了一些群集配置,整个群集开始不正常工做,这时候,您可使用受权恢复,选择与一个节点进行恢复,在该节点上执行受权恢复,首先中止群集服务,恢复群集数据库配置,再启动群集节点,请注意,实质上这里,执行受权恢复的时候,全部群集节点的群集服务都会被中止!受权恢复后只要被恢复节点会优先启动,由于受权恢复,要把群集数据库配置回滚到以前的paxos标记,回滚以后须要将被受权恢复节点的群集数据库提高为黄金副本,以后,再手动启动其它群集节点的群集服务,其它群集节点会从拥有黄金副本的节点同步群集数据库配置,群集恢复正常。


能够看到,受权模式恢复的关键点在于 


1.机器能够不关机在线恢复 ,恢复后不须要重启 

2.WSFC和Windows Server backup感知,执行群集受权模式恢复


基本上受权模式恢复的场景很明确,回滚群集配置,并提高回滚节点群集数据库为黄金副本。


这里须要注意的一点是,因为群集数据库的paxos标记会实时变化,所以,执行群集数据库受权恢复时,必定必定不要一块儿启动全部群集节点的群集服务,一旦你不当心在其它节点改了配置,此次群集受权恢复就失败了,由于被修改节点的paxos标记为最新,恢复节点仍是会去和它同步群集数据库



非受权恢复呢


相信你们已经猜到了,非受权恢复,和受权恢复相似,可是并不会有提高群集节点数据库为黄金副本这个过程


非受权恢复和受权恢复最大的不一样是非受权恢复须要重启机器来完成,且恢复时间会较长


实质上当咱们执行非受权恢复时,是至关于对于节点执行一个完整的裸机恢复


非受权恢复,老王认为主要适用于如下两种场景


  1. 单个群集节点出现问题,常常蓝屏崩溃,不稳定,如今不想继续用了,但愿重装,这时候能够直接格式化节点,插入系统光盘,裸机恢复节点,裸机恢复后,群集节点数据库paxos标记为旧的标记,并不会提高为黄金副本,被非受权恢复的单个节点,会和其它拥有最新paxos标记的群集节点同步数据库。

  2. 整个群集出现问题,群集出现问题,任何一个节点都不能用了,但以前有裸机备份,这时候能够直接新装一台机器,插入系统光盘,裸机恢复到该节点,让群集先单点复活,以后等待有资源准备就绪后再加入到群集。


总结一下


受权恢复主要是用于恢复群集配置,并同步到其它全部节点

非受权恢复主要用于恢复节点或群集能够正常使用,被恢复的节点将会和其它可用节点同步群集数据库


目前老王来看可以支持微软群集数据库受权恢复的只有Windows Server backup,DPM,其中主要以Windows Server backup为主,Windows Server backup能够看到群集执行受权恢复的过程


对于非受权恢复,无非是裸机备份,裸机恢复,maybe除了微软的Windows Server backup,DPM,一些其它第三方的备份工具也可使用


另外老王建议,备份群集数据库配置和备份群集数据分开执行,备份群集数据库就只是备份群集数据库配置,恢复时候我也只恢复群集数据库相关的内容,对于群集数据磁盘和CSV内容,建议单独执行备份,不要和群集数据库的备份恢复放在一块儿。


接下来咱们分别实战群集数据库受权恢复和非受权恢复


受权恢复,场景介绍


DC01&iscsi      

lan:10.0.0.2 255.0.0.0

iscsi:30.0.0.2 255.0.0.0


HV01

MGMET:10.0.0.9 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.9 255.0.0.0

CLUS:18.0.0.9 255.0.0.0


HV02

MGMET:10.0.0.10 255.0.0.0 DNS 10.0.0.2

ISCSI:30.0.0.10 255.0.0.0

CLUS:18.0.0.10 255.0.0.0


当前群集正常运行,群集名称fscluster,群集文件服务应用fileshare

261fa85784a1242a1ab83fb4ed49f3eb.png

当前群集正常运行,咱们已经执行过一次裸机备份

a1b7631405c0e5238e6916c0ff64e1d0.png

受权恢复操做流程以下


  1. 检索确认备份信息

  2. 经过wbadmin命令执行群集信息恢复

  3. wbadmin和wsfc整合,中止全部节点群集服务

  4. 恢复群集数据库为以前备份

  5. 启动被恢复节点群集服务,提高群集数据库为黄金副本

  6. 手动启动其它群集节点群集服务


破坏群集,删除文件服务器内容

a8f5d9fe80c7e76bfe51ece6f792b3e8.png

1.检查群集节点备份记录

wbadmin get versions

a1149939bc1a4b2165a8eab408fce886.png

检查备份详细信息

wbadmin get items -version:10/24/2017-02:17

b25229535e54c8d908ba83915c9643de.png

能够看到,虽然咱们只是备份了裸机,可是windows server backup,感知到咱们有群集,自动帮助咱们备份群集,在2003时代只保存在系统状态,2008时×××始已经单独独立成应用程序!


2.在线经过wbadmin执行群集数据库受权恢复

wbadmin start recovery -itemtype:app -items:cluster -version:10/24/2017-02:17


正如咱们所讲

99d4bf59eec0a265530bd51c11c9931e.png

准备好了输入Y,群集开始执行中止群集节点群集服务 - 恢复数据库 - 从新启动恢复节点群集服务

1880ff54cf2cd25aef98915092549c10.png

恢复完成后提示以下

362434074b621b049ba139b85d7c7150.png

能够看到,备份恢复过程,首先会中止全部节点群集服务,以后会先启动被恢复节点的群集服务,以提高为黄金副本

e275e2fa72e8696cd2eedbb7891508d3.png


8299f70bf5f598a52ffcf2f170a1653d.png


手动启动HV02节点群集服务

efc949baf59ce06919613cec415b3276.png


51393c44434f4775bd8d5ad66da4587c.png

群集配置恢复如初,受权恢复完成

0c3ebc33d89f195206d26b8d5415838e.png

查看clusterlog 受权恢复过程

b86651e45b60ac9bda84e76cc93005da.png


开始执行群集数据库还原 


1f08f941d8879aa76ab94e604858d86d.png


恢复paxos标记,提高paxos标记为黄金副本


d056e35da815c795d43a6c4ec552ee3c.png


715823f30f78a1712e7893ef72339c0d.png


群集恢复过程中止群集全部节点群集服务,但会稍后会自动启动被恢复节点,并提高paxos标记为最优,其它节点再加入时,必需要求与被恢复节点同步群集数据库内容,才能够正常加入群集


89e77b81828c3b69ab5011845f334dd7.png


a1f4dac119472424fea9d292cc6d00f5.png


接下来咱们再执行非受权恢复


环境同受权恢复同样,这里咱们模拟群集彻底崩溃,两个节点都不能使用,咱们新建一个配置彻底相同的HV03,以后把群集内容恢复到该节点


因为咱们会经过网络进行恢复,所以须要HV03这个新节点能够接入网络,以访问备份文件夹,可临时架设个DHCP服务器


当前HV01 HV02节点已关机,没法再开机


d942503a44ab53dbc00a7dd92f4becfa.png

按照一样配置新建HV03虚拟机,插入2016光盘,选择修复计算机

d0895ac5b15ecd4685610dbda6247a11.png

疑难解答

5dfd2c8d06af103311111ed11fe73064.png

系统映像恢复

22a5fbe9bdf8aaa60e577f3a7ae06a54.png

进去以后,若是你的新机器正常加入到了环境,正常联系到DHCP获取到地址,这里能够经过输入网络路径,凭据,访问到备份共享文件夹。

40f428372fc73fc1a596cc96d187c24c.png

国际惯例,下一步下一步

48b6fc72960d21faff2fce2c0e8183cd.png


7c26dea11615ce6f1d690c0de5474c9e.png

如采用新硬件服务器,此处需载入驱动程序

2fcee7376e478f558a642119b2ce319e.png


e195e7662665e450705c0389c97cb54c.png

泡杯茶等着好了

b3345734c2a3630d59562e004e427568.png

恢复完成后重启,进入开机界面

39af339406cd991011ad8102a41bfc04.png

群集节点网卡已经恢复到HV01的的状态,一些时候会出现部分网卡未正常恢复,如发现未正常恢复,从新输入便可。

b15df10337bbb87aa09de6d8e4b9079a.png

存储获得正常链接,在2008R2时代,若是执行非受权恢复,一些时候会遇见存储要从新链接的状况,2012,2016这获得了优化,大部分状况下存储状态都会保持正常

f75cc5cb0e6f53806245ebcb0f174b1a.png

打开群集管理器发现群集也已经正常恢复,当前只有新HV01节点可用

1308bc840d3892f6d4ef35dd3ca1e26f.png


fcb5ab518a04d8048762f0ebba20158a.png

稍后能够再重作其它节点添加进来


至此咱们完成了在群集彻底崩溃的状况下,利用已有的裸机备份从新恢复起群集。

除了咱们这种形式的恢复

还有一种非受权恢复场景

即当前节点存活,那么我就能够在存活节点上面经过执行命令

wbadmin start systemstaterecovery -version:

来恢复单个崩溃节点,该恢复过程只是系统状态恢复,并不会执行数据库副本paxos标记提高操做,执行完成后重启,节点会和其它现有节点同步最新的群集数据库内容。


之因此老王选择演示群集彻底崩溃的场景

是由于老王以为这种场景下非受权恢复才发挥出最重要的意义

若是说由于一个节点的崩溃,而花力气去执行非受权恢复,我不如直接新build一个节点加入群集


对于群集的备份恢复


老王建议是一体化来作


  1. 开启活动目录回收站功能,CNO/VCO误删后,活动目录恢复,群集修复,若是群集全部信息都被删除,应最优先恢复CNO/VCO

  2. 针对群集节点执行裸机备份,用于非受权恢复崩溃的的节点/群集,受权恢复群集数据库配置。

  3. 针对群集数据磁盘,CSV,选择能和群集感知的备份工具进行备份恢复,若是群集全部信息都被删除,应先恢复CNO/VCO,群集数据库配置,最后恢复群集数据磁盘。

相关文章
相关标签/搜索