WSFC 状态操做指南

时间 2019-11-11

标签 wsfc 状态指南繁體版

原文原文链接

在WSFC中，你们可能会看到各类操做状态，例如，暂停节点，中止节点服务，逐出节点，恢复节点，关闭群集，销毁群集，关闭链接，这些操做究竟是什么意思，分别应该用于什么场景下，今天咱们就来一探究竟，嘀，老王发车啦！node

首先咱们先从节点操做讲起网络

以WSFC 2012R2为例，当咱们在故障转移管理器，节点界面下，点击任意一个节点，右键能够看到如下操做ide

暂停性能

恢复测试

远程桌面
spa

信息详细信息操作系统

显示关键事件命令行

首先来看暂停，自2012开始，暂停不只仅只是宣告节点为维护状态，而是能够根据放置策略，自动把被暂停节点上的负载移至其它节点，此操做主要适用于节点维护场景，例如，节点OS不稳定须要进行排错，为了不影响上面的群集应用，先把应用飘走，再进行排错，或者须要关机加硬件配置，也能够先将节点置为暂停，应用移走，关机加配置，加好以后再开机解除暂停状态，依次操做各节点3d

总结来讲，暂停操做主要用于计划内维护场景，便是说，咱们知道将要发生维护操做，节点将要不可用，那么我经过暂停操做，就能够以最小停机时间的方式把资源迁移走，再执行维护blog

默认状况下2012时×××始，暂停模式有两个选择，一为排出角色，二为不排出角色，排出角色为2012新功能，即按照放置策略将节点上面应用放置到合适节点，不排出角色为2008旧选项，即只宣告节点为暂停，不接受资源迁移到本节点，上面资源不会被移走

排出角色，在2012时×××始，默认状况下暂停节点针对于虚拟机执行实时迁移操做，群集角色执行在线移动操做，上篇文章老王曾经讲过，群集维护，暂停模式能够和优先级相整合，例如，节点暂停维护，高和中优先级虚拟机得到实时迁移，低优先级虚拟机得到实时迁移，在资源不足的场景下，经过此配置，能够始终确保更主要的虚拟机得到最高的可用性和迁移性能，参考老王博客 WSFC 维护模式操做粒度控制

说完暂停咱们再来看下恢复，恢复同暂停正好相对应，当咱们置为暂停，维护完成后，势必须要节点从新正常提供服务，在2008时代，恢复仅意味着解除节点的暂停状态，让节点能够接受资源被迁移过来，2012以后此旧操做显示为不故障回复角色。2012时×××始，恢复操做新增故障回复角色，恢复和暂停相互粘合，当咱们把节点置为暂停后，资源会被迁移至其它节点，当节点完成后，咱们能够选择故障回复角色，让被迁移走的资源回到原来的节点正常运做，此暂停故障回复，也参考放置策略，会考虑首选全部者，反相关性，可能全部者等策略，若是节点当前正在首选全部者则不会回复，若是节点上面已有反相关性资源则不会回复，若是维护后原节点从资源的可能全部者剔除，则不会回复。

在一些场景下，开发人员或业务人员可能会对群集角色或虚拟机有所要求，例如某个资源只能在某个节点上面运行，对于一些重要的资源，固然仍是稳定为好，能在原来的节点运做就继续回到原来节点运做，此场景下适用恢复角色功能，2012时×××始，你们做为群集管理员，只要有这种意识就好，计划内维护，就点一下暂停节点，迁移角色，维护完成后点一下恢复节点，迁移回群集角色

远程桌面其实也是个有用的功能，例如群集节点不少，可能16个节点，32个节点，群集管理员天天会打开群集管理器进行配置，巡检，若是发现节点有问题，能够直接在故障转移管理器中对节点发起一个远程桌面，只要节点远程端口正常工做就能够直接远程过去

信息详细信息，主要显示对于资源或节点执行操做失败，失败的缘由是什么

显示关键事件，主要用于聚合当前节点或资源的关键事件，2008开始，群集对于大部分资源都会置备这种资源特定的事件管理器筛选，咱们点击某个节点，或某个资源，显示关键事件，显示的就是仅当前节点或当前资源的事件。

针对于节点操做除了上述以外，还有一个更多操做，里面分别是启动群集服务，中止群集服务，逐出节点

启动群集服务，一般用于以前因为某些操做，例如要进行排错，手动中止了群集服务，排错完成后能够经过GUI启动群集服务，或经过命令行

net start clussvc启动

中止群集服务，也是用于一些特殊场景，正常状况下咱们不须要用到它，例如群集应用若是转移到某个节点没法正常工做，咱们能够经过取消可用全部者，或在这里停掉该节点的群集服务，在WSFC 2016以前，群集服务的中止，即意味着故障转移，若是一个节点的群集服务中止，下次运行情况检测将报告该节点不可用，上面的全部应用或虚拟机将执行计划外故障转移操做。WSFC 2016开始，群集推出VM防瞬断功能，能够防止瞬断状况致使虚拟机快速迁移，例如若是是一个网络瞬断，或群集服务崩溃中止，只要在必定时间内能够恢复，则不会触发快速迁移操做，由于快速迁移会为虚拟机带来停机时间，若是您不须要VM瞬断功能

关闭便可（Get-Cluster）.ResiliencyDefaultPeriod =0

逐出节点，则意味着将节点完全从群集的可用节点中剔除，已逐出节点永远不建议再从新加入群集，逐出节点一般用于如下场景

重命名群集节点

用不一样硬件替换节点

节点从新安装操做系统

永久在群集中删除节点

一般来讲，逐出节点是一个简单粗暴的解决问题方式，但它毫不是一个排错的途径，若是你能确认，就是由于这台节点的OS不稳定有问题，那么您能够把它从群集中逐出，新加一个节点进来，或者逐出以后重作系统，再以一个新的节点名称加入进来。

这种方式虽好，但有时并不能真正的解决问题，有时候咱们觉得是一个节点的问题，但实际上是群集资源的问题，可能咱们即使逐出了节点，再新加节点仍是会遇到此问题，所以建议不轻易作逐出节点，除非咱们断定问题缘由，最后执行逐出操做，仍是应该先对问题进行断定分析

常见的逐出误区

群集服务不能启动，逐出了节点2，可是群集服务仍然不能启动
资源不转移到节点2，每次发生故障转移时，磁盘都不会联机，没法返回到节点1，其中一个节点被逐出再添加一个节点仍然有此问题

一旦发生这种排错状况，建议查看cluster.log及dump文件进行分析，找到问题真正所在，也许根源是由于RHS死锁或某个第三方软件兼容性的问题，在真正断定问题以前不要轻易执行逐出节点操做，不然排错时可能没法完整重现问题

以上为GUI界面上针对于节点的全部操做，还有一些场景下的操做，帮助你们熟悉下流程

节点开关机

暂停节点 2.关闭操做系统 3.开机操做系统 4.恢复节点

以上为的群集节点开关机标准正常流程，还有一些意外状况，例如群集上面可能跑了一些特殊角色，开机后须要执行一段程序，才能够正常跑群集角色，那这个步骤能够在第4个步骤前作掉

WSFC 2012R2开始，针对于群集虚拟机新增了一个属性DrainOnshutdown

若是咱们忘记执行暂停节点，直接关闭虚拟机，WSFC2012R2开始，会自动按照维护模式操做策略，帮助咱们自动将虚拟机实时迁移或快速迁移至其它节点，群集其它角色则采用移动挂起操做，全部资源都移走后，操做系统才正常完成关闭操做，该功能也被称为“懒人帮手”，一旦咱们忘了暂停节点，背后也会有一个这样的帮手，帮助咱们去完成维护操做。

节点故障转移

1.节点宕机 2.其它节点检测注册表挂载共享存储联机上线 3.节点恢复 4.故障回复群集角色

对于群集故障转移，这里特别要说的是故障回复，这是个老古董了，从2003时代就看到它，故障回复必须和首选全部者功能相配合，这点和最初如出一辙，便是说若是应用当前在节点1，节点1宕机，应用去节点2，若是但愿节点1恢复后应用回到节点1，则应用必须设置首选全部者为节点1，故障回复操做能够为当即或某一时刻，若是应用对于宿主有要求，须要始终在某一节点运做，能够配置故障回复，以便在计划外故障转移后故障回复，2008时代对于虚拟机故障回复采用快速迁移，2012时×××始故障回复采用实时迁移。

看过节点级别的操做后，咱们再来看下群集级别的操做，老王将主要介绍如下操做

关闭链接，无实际操做效果，点击关闭链接后，只是在当前故障转移群集管理器中，删除显示已链接的群集，假设这时一个群集节点，会有不懂的人来碰你的群集，那么为了不它误操做，你能够在他操做以前关闭群集链接

关闭链接以后，若是再想链接到群集，点击链接到群集便可

关闭群集，中止全部群集角色，关闭全部群集节点的群集服务，若是群集中有不少节点，能够经过此操做帮助咱们关闭所有，关闭后群集对外不可用，若是但愿群集各节点暂时失去群集做用能够执行此操做

针对于虚拟机群集资源，自2008开始，能够设置虚拟机在群集关闭的状况下要执行的操做，默认为保存虚拟机

数值	效果
0	VM直接断电
1（默认）	VM保存
2	VMOS正常关机
3	VMOS强行正常关机

Get-ClusterResource "虚拟机资源群集名称" | Set-ClusterParameter OfflineAction 2

若要恢复群集工做，点击启动群集便可，群集虚拟机默认会从保存状态中还原，群集角色会从脱机中联机

销毁群集，拆掉整个群集，删除掉群集全部角色和元数据信息，一般用于测试环境，或从新部署群集，和关闭群集同样，轻易不建议使用，一旦群集被销毁后，若是须要在该节点再次搭建群集，有时需从新安装群集功能

在执行销毁群集以前，请确保群集全部角色已被删除，虚拟机已经导出到其它位置，须要注意，在销毁群集过程，虚拟机若是是存放在共享磁盘和CSV，则会被完全关闭，但不会丢失数据，虚拟机的数据会存放在CSV中，重建群集以后，虚拟机能够被从新挂载上线，可是销毁后，重建前，虚拟机将不可用。

若是销毁群集时，群集内仍有未被删除的虚拟机或角色，将提示如下错误

关于销毁群集的注意事项

销毁群集时全部节点须要在线，若是销毁群集时有1节点不在线，随后该节点又加入其它群集，将显示该节点已属于其它群集，这时需在节点上执行命令
cluster node hv01 /forcecleanup
这将在该节点上面清理掉全部群集旧信息的注册表，以容许群集加入新的群集
销毁群集过程幕后会逐出节点群集资格，删除各节点上关于群集的配置信息注册表，若是销毁群集后但愿重建群集，重建不成功，请尝试检查注册表配置单元，看是否有残留旧群集信息，若是有，请清理后再尝试重建群集。
销毁以后群集CNO默认在AD中处于禁用状态，若是但愿销毁群集后直接从AD删除CNO，可以使用PowerShell操做
Remove-Cluster -CleanupAD

移动群集核心资源

群集中的资源大致可分为两种，一种为群集运做资源，一种为基于群集的应用资源，核心资源也是指群集运做资源，一个群集要想运做起来，须要群集名称，群集IP，还会有见证资源，在WSFC 2016以前，大致就是这些内容，这些群集运做资源也被放置在一个群集资源组里面，成为核心资源组，群集过程当中会被放置在其中一个群集节点上，咱们能够经过图形界面移动核心资源组至其它群集节点，2012以前仅能经过命令执行，2012以后支持GUI界面执行，2008时×××始群集核心资源组会被单独放置在RHS监视进程中，放置由于群集其它资源的RHS进程崩溃，而影响整个群集。

群集核心资源一般咱们不必管它，除非是排错时会须要移动，或考虑到群集负载平衡的场景，若是一个节点承载了不少应用，则能够把它上面的核心资源移动至其余节点以减轻负担

WSFC 2016中，群集核心组多出存储QOS资源和 Virtual Machine Cluster WMI

2012以前，使用命令移动群集核心资源

cluster group “Cluster Group” /Move:NodeName

移动群集可用存储资源

cluster group “Available Storage” /move