WSFC 状态操做指南

 在WSFC中,你们可能会看到各类操做状态,例如,暂停节点,中止节点服务,逐出节点,恢复节点,关闭群集,销毁群集,关闭链接,这些操做究竟是什么意思,分别应该用于什么场景下,今天咱们就来一探究竟,嘀,老王发车啦!node


 首先咱们先从节点操做讲起网络


 以WSFC 2012R2为例,当咱们在故障转移管理器,节点界面下,点击任意一个节点,右键能够看到如下操做ide


暂停性能

恢复测试

远程桌面
spa

信息详细信息操作系统

显示关键事件命令行


2018-02-06_110903.png


首先来看暂停,自2012开始,暂停不只仅只是宣告节点为维护状态,而是能够根据放置策略,自动把被暂停节点上的负载移至其它节点,此操做主要适用于节点维护场景,例如,节点OS不稳定须要进行排错,为了不影响上面的群集应用,先把应用飘走,再进行排错,或者须要关机加硬件配置,也能够先将节点置为暂停,应用移走,关机加配置,加好以后再开机解除暂停状态,依次操做各节点3d


总结来讲,暂停操做主要用于计划内维护场景,便是说,咱们知道将要发生维护操做,节点将要不可用,那么我经过暂停操做,就能够以最小停机时间的方式把资源迁移走,再执行维护blog


默认状况下2012时×××始,暂停模式有两个选择,一为排出角色,二为不排出角色,排出角色为2012新功能,即按照放置策略将节点上面应用放置到合适节点,不排出角色为2008旧选项,即只宣告节点为暂停,不接受资源迁移到本节点,上面资源不会被移走


排出角色,在2012时×××始,默认状况下暂停节点针对于虚拟机执行实时迁移操做,群集角色执行在线移动操做,上篇文章老王曾经讲过,群集维护,暂停模式能够和优先级相整合,例如,节点暂停维护,高和中优先级虚拟机得到实时迁移,低优先级虚拟机得到实时迁移,在资源不足的场景下,经过此配置,能够始终确保更主要的虚拟机得到最高的可用性和迁移性能,参考老王博客 WSFC 维护模式操做粒度控制


说完暂停咱们再来看下恢复,恢复同暂停正好相对应,当咱们置为暂停,维护完成后,势必须要节点从新正常提供服务,在2008时代,恢复仅意味着解除节点的暂停状态,让节点能够接受资源被迁移过来,2012以后此旧操做显示为不故障回复角色。2012时×××始,恢复操做新增故障回复角色,恢复和暂停相互粘合,当咱们把节点置为暂停后,资源会被迁移至其它节点,当节点完成后,咱们能够选择故障回复角色,让被迁移走的资源回到原来的节点正常运做,此暂停故障回复,也参考放置策略,会考虑首选全部者,反相关性,可能全部者等策略,若是节点当前正在首选全部者则不会回复,若是节点上面已有反相关性资源则不会回复,若是维护后原节点从资源的可能全部者剔除,则不会回复。


在一些场景下,开发人员或业务人员可能会对群集角色或虚拟机有所要求,例如某个资源只能在某个节点上面运行,对于一些重要的资源,固然仍是稳定为好,能在原来的节点运做就继续回到原来节点运做,此场景下适用恢复角色功能,2012时×××始,你们做为群集管理员,只要有这种意识就好,计划内维护,就点一下暂停节点,迁移角色,维护完成后点一下恢复节点,迁移回群集角色


2018-02-06_112022.png




远程桌面其实也是个有用的功能,例如群集节点不少,可能16个节点,32个节点,群集管理员天天会打开群集管理器进行配置,巡检,若是发现节点有问题,能够直接在故障转移管理器中对节点发起一个远程桌面,只要节点远程端口正常工做就能够直接远程过去

2018-02-06_114210.png


信息详细信息,主要显示对于资源或节点执行操做失败,失败的缘由是什么


2018-02-06_114417.png



显示关键事件,主要用于聚合当前节点或资源的关键事件,2008开始,群集对于大部分资源都会置备这种资源特定的事件管理器筛选,咱们点击某个节点,或某个资源,显示关键事件,显示的就是仅当前节点或当前资源的事件。


2018-02-06_114448.png

针对于节点操做除了上述以外,还有一个更多操做,里面分别是启动群集服务,中止群集服务,逐出节点

2018-02-06_121823.png


启动群集服务,一般用于以前因为某些操做,例如要进行排错,手动中止了群集服务,排错完成后能够经过GUI启动群集服务,或经过命令行

net start clussvc启动

中止群集服务,也是用于一些特殊场景,正常状况下咱们不须要用到它,例如群集应用若是转移到某个节点没法正常工做,咱们能够经过取消可用全部者,或在这里停掉该节点的群集服务,在WSFC 2016以前,群集服务的中止,即意味着故障转移,若是一个节点的群集服务中止,下次运行情况检测将报告该节点不可用,上面的全部应用或虚拟机将执行计划外故障转移操做。WSFC 2016开始,群集推出VM防瞬断功能能够防止瞬断状况致使虚拟机快速迁移,例如若是是一个网络瞬断,或群集服务崩溃中止,只要在必定时间内能够恢复,则不会触发快速迁移操做,由于快速迁移会为虚拟机带来停机时间,若是您不须要VM瞬断功能

关闭便可 (Get-Cluster).ResiliencyDefaultPeriod =0


逐出节点,则意味着将节点完全从群集的可用节点中剔除,已逐出节点永远不建议再从新加入群集,逐出节点一般用于如下场景


重命名群集节点

用不一样硬件替换节点

节点从新安装操做系统

永久在群集中删除节点


一般来讲,逐出节点是一个简单粗暴的解决问题方式,但它毫不是一个排错的途径,若是你能确认,就是由于这台节点的OS不稳定有问题,那么您能够把它从群集中逐出,新加一个节点进来,或者逐出以后重作系统,再以一个新的节点名称加入进来。


这种方式虽好,但有时并不能真正的解决问题,有时候咱们觉得是一个节点的问题,但实际上是群集资源的问题,可能咱们即使逐出了节点,再新加节点仍是会遇到此问题,所以建议不轻易作逐出节点,除非咱们断定问题缘由,最后执行逐出操做,仍是应该先对问题进行断定分析


常见的逐出误区


  1. 群集服务不能启动,逐出了节点2,可是群集服务仍然不能启动

  2. 资源不转移到节点2,每次发生故障转移时,磁盘都不会联机,没法返回到节点1,其中一个节点被逐出再添加一个节点仍然有此问题


一旦发生这种排错状况,建议查看cluster.log及dump文件进行分析,找到问题真正所在,也许根源是由于RHS死锁或某个第三方软件兼容性的问题,在真正断定问题以前不要轻易执行逐出节点操做,不然排错时可能没法完整重现问题


以上为GUI界面上针对于节点的全部操做,还有一些场景下的操做,帮助你们熟悉下流程


节点开关机

  1. 暂停节点 2.关闭操做系统 3.开机操做系统 4.恢复节点


以上为的群集节点开关机标准正常流程,还有一些意外状况,例如群集上面可能跑了一些特殊角色,开机后须要执行一段程序,才能够正常跑群集角色,那这个步骤能够在第4个步骤前作掉


WSFC 2012R2开始,针对于群集虚拟机新增了一个属性DrainOnshutdown

若是咱们忘记执行暂停节点,直接关闭虚拟机,WSFC2012R2开始,会自动按照维护模式操做策略,帮助咱们自动将虚拟机实时迁移或快速迁移至其它节点,群集其它角色则采用移动挂起操做,全部资源都移走后,操做系统才正常完成关闭操做,该功能也被称为懒人帮手,一旦咱们忘了暂停节点,背后也会有一个这样的帮手,帮助咱们去完成维护操做。


节点故障转移

1.节点宕机 2.其它节点检测注册表 挂载共享存储联机上线 3.节点恢复 4.故障回复群集角色

2018-02-06_151240.png

对于群集故障转移,这里特别要说的是故障回复,这是个老古董了,从2003时代就看到它,故障回复必须和首选全部者功能相配合,这点和最初如出一辙,便是说若是应用当前在节点1,节点1宕机,应用去节点2,若是但愿节点1恢复后应用回到节点1,则应用必须设置首选全部者为节点1,故障回复操做能够为当即或某一时刻,若是应用对于宿主有要求,须要始终在某一节点运做,能够配置故障回复,以便在计划外故障转移后故障回复,2008时代对于虚拟机故障回复采用快速迁移,2012时×××始故障回复采用实时迁移。


看过节点级别的操做后,咱们再来看下群集级别的操做,老王将主要介绍如下操做

2018-02-06_130918.png

关闭链接,无实际操做效果,点击关闭链接后,只是在当前故障转移群集管理器中,删除显示已链接的群集,假设这时一个群集节点,会有不懂的人来碰你的群集,那么为了不它误操做,你能够在他操做以前关闭群集链接

2018-02-06_131114.png

关闭链接以后,若是再想链接到群集,点击链接到群集便可

2018-02-06_131139.png

关闭群集,中止全部群集角色,关闭全部群集节点的群集服务,若是群集中有不少节点,能够经过此操做帮助咱们关闭所有,关闭后群集对外不可用,若是但愿群集各节点暂时失去群集做用能够执行此操做

2018-02-06_131735.png


针对于虚拟机群集资源,自2008开始,能够设置虚拟机在群集关闭的状况下要执行的操做,默认为保存虚拟机



数值
效果
0
VM直接断电
1(默认) VM保存
2
VMOS正常关机
3 VMOS强行正常关机



Get-ClusterResource "虚拟机资源群集名称" | Set-ClusterParameter OfflineAction 2

2018-02-06_132716.png

若要恢复群集工做,点击启动群集便可,群集虚拟机默认会从保存状态中还原,群集角色会从脱机中联机

2018-02-06_132311.png

销毁群集,拆掉整个群集,删除掉群集全部角色和元数据信息,一般用于测试环境,或从新部署群集,和关闭群集同样,轻易不建议使用,一旦群集被销毁后,若是须要在该节点再次搭建群集,有时需从新安装群集功能

2018-02-06_134738.png

在执行销毁群集以前,请确保群集全部角色已被删除,虚拟机已经导出到其它位置,须要注意,在销毁群集过程,虚拟机若是是存放在共享磁盘和CSV,则会被完全关闭,但不会丢失数据,虚拟机的数据会存放在CSV中,重建群集以后,虚拟机能够被从新挂载上线,可是销毁后,重建前,虚拟机将不可用。


若是销毁群集时,群集内仍有未被删除的虚拟机或角色,将提示如下错误

2018-02-06_135348.png


关于销毁群集的注意事项


  1. 销毁群集时全部节点须要在线,若是销毁群集时有1节点不在线,随后该节点又加入其它群集,将显示该节点已属于其它群集,这时需在节点上执行命令

    cluster node hv01 /forcecleanup

    这将在该节点上面清理掉全部群集旧信息的注册表,以容许群集加入新的群集

  2. 销毁群集过程幕后会逐出节点群集资格,删除各节点上关于群集的配置信息注册表,若是销毁群集后但愿重建群集,重建不成功,请尝试检查注册表配置单元,看是否有残留旧群集信息,若是有,请清理后再尝试重建群集。

  3. 销毁以后群集CNO默认在AD中处于禁用状态,若是但愿销毁群集后直接从AD删除CNO,可以使用PowerShell操做

    Remove-Cluster -CleanupAD



移动群集核心资源


群集中的资源大致可分为两种,一种为群集运做资源,一种为基于群集的应用资源,核心资源也是指群集运做资源,一个群集要想运做起来,须要群集名称,群集IP,还会有见证资源,在WSFC 2016以前,大致就是这些内容,这些群集运做资源也被放置在一个群集资源组里面,成为核心资源组,群集过程当中会被放置在其中一个群集节点上,咱们能够经过图形界面移动核心资源组至其它群集节点,2012以前仅能经过命令执行,2012以后支持GUI界面执行,2008时×××始群集核心资源组会被单独放置在RHS监视进程中,放置由于群集其它资源的RHS进程崩溃,而影响整个群集。


群集核心资源一般咱们不必管它,除非是排错时会须要移动,或考虑到群集负载平衡的场景,若是一个节点承载了不少应用,则能够把它上面的核心资源移动至其余节点以减轻负担


WSFC 2016中,群集核心组多出存储QOS资源和 Virtual Machine Cluster WMI


2012以前,使用命令移动群集核心资源

cluster group “Cluster Group” /Move:NodeName


移动群集可用存储资源

cluster group “Available Storage” /move

相关文章
相关标签/搜索