ESX的NFS存储Failover机制Q&A

时间 2021-04-07

标签 ide 操作系统事件文档 ast class 读书笔记配置栏目 Linux 繁體版

原文原文链接

ESX的NFS存储一般都会配置备份链路。当主链路出现故障时自动切换到备份链路上，这叫作Failover。

问：何时发起failover？答：当发现存储链路失败时。

问：如何判断一条存储链路中断了？答：找不到心跳了呗。

问：心跳是怎么回事？怎样才算找不到心跳？
答：一般ESX Host会每隔必定的间隔(HeartbeatFrequency)发起一次到存储的心跳检测，每次心跳检测必须在必定的时间内(HeartbeatTimeout)收到回复，不然就算是一次心跳检测失败(HeartbeatFailure)，连续失败到必定的次数(HeartbeatMaxFailure)就算链路失败。

这些参数应该修改成如下推荐的值 (不管是NetApp仍是EMC的NAS设备)

NFS.HeartbeatDelta (NFS.HeartbeatFrequency in ESX 3.x) 12
NFS.HeartbeatTimeout 5
NFS.HeartbeatMaxFailures 10

上面这些推荐参数值的含义是：NFS.HeartbeatFrequency=12说明每12秒会发起一次心跳检测。5秒没有响应就算Timeout，一直累计到10次没有响应才算NFS存储丢失，才发起failover的动做。这中间其实通过了12s*10+5s=125秒时间。也就是说，真正要发起一次failover事件，ESX Host要等上125秒。问：那么，在这125秒内，从VM的角度看，发生了什么情况呢？答：VM会发现其vSCSI控制器上链接的磁盘中止响应，这取决于Guest OS会忍受多长时间的磁盘不响应才认为是一个error (delayed write error)，当这个IO error发生在Guest OS的系统盘时，就会致使OS崩溃。Windows操做系统默认的disk Timeout是60秒。也就是说，当ESX Host还在125秒的等待时间内而不去执行Failover动做时，Guest OS就已经崩溃了。在Guest级别HA启用的状况下，Guest OS会在NFS Storage恢复的时候重启。可是从新配置Guest OS的参数以使其也可以等待125秒不是更好吗？如何作到？用Regedit，修改HKLM\System\CurrentControlSet\Services\Disk下的TimeOutValue值为125便可。（修改注册表有风险，请必定先备份后修改）注：本文是读书笔记【参考文档】 (1) Scott Lowe, 《Mastering VMware vSphere 4.0》 chapter 6