vsan主机高级优化参数配置

时间 2020-08-21

标签 vsan 主机高级优化参数配置繁體版

原文原文链接

esxi6.0 vc6.0
vsan6.2高级参数优化后端

esxcfg-advcfg -s 1024 /LSOM/heapSize
esxcfg-advcfg -s 180 /VSAN/ClomMaxComponentSizeGB
esxcfg-advcfg -s 512 /LSOM/blPLOGCacheLines 默认值为 128 K，增长至 512 K
esxcfg-advcfg -s 32 /LSOM/blLLOGCacheLines 默认值为 128，增长至 32 K缓存

* 该参数必须在主机正式部署虚拟机前完成修改数据结构

附录学习：ide

拥堵代表的含义性能

拥堵是一种反馈机制，它反映了从 vSAN DOM 客户端层传入 vSAN 磁盘组所服务的级别的入站 IO 请求速率下降。这种入站 IO 请求速率下降的行为是由 IO 延迟引发的，而底层的瓶颈会致使发生 IO 延迟。所以，一个有效的方法是，将滞后时间从底层转移到输入流量，而无需更改系统的总吞吐量。这可避免在 vSAN LSOM 层中出现没必要要的排队以及尾丢队列，因而避免了在处理最终可能丢弃的 IO 请求时浪费大量的 CPU 周期。所以，不管何种类型的拥堵，临时和较小的拥堵值一般没问题，但对系统性能无益。不过，持续和较大的拥堵值可能会致使滞后时间延长和吞吐量下降的程度超出预期，所以应进行关注并解决以提升基准性能。学习

拥堵的报告方式优化

vSAN 衡量并以介于 0 至 255 之间的标量值报告拥堵。引入的 IO 延迟会随拥堵值的增长呈指数增加。线程

处理拥堵的可行方法
检查拥堵是否持续且居高不下 (> 50)。许多状况下，高拥堵值是系统配置错误或系统性能不佳形成的。若是一直呈现高拥堵值，请检查如下项：调试

IO 控制器和设备中支持的最大队列深度。支持的最大队列深度低于 100 可能会致使问题。请检查控制器是否已通过认证并列在 vSAN HCL 列表中。
固件或设备驱动程序软件的不正确版本。请参考 VMware HCL，了解 vSAN 兼容的软件。
不正确的大小设置。缓存层磁盘和内存的大小设置不正确可能会致使拥堵值较高。
若是问题不是上述任何情况，必须进行调试，肯定是否能够更好地调整基准，以减小拥堵。您必须注意，是：
全部磁盘组都出现拥堵，仍是
一个或两个磁盘组的拥堵值异常高于其余磁盘组。
对于状况 (1)，颇有可能 vSAN 群集后端没法处理 IO 工做负载。若是可能，能够经过如下方法调整基准：
关闭某些虚拟机或
减小每一个虚拟机中的未完成 IO/线程数，或者
对于写入工做负载，减少工做集的大小。
对于状况 (2)，即，一个磁盘组上的拥堵远远高于系统中的其余磁盘组，这代表磁盘组间的写入 IO 活动不平衡。若是持续发生这种状况，请尝试增长用于建立虚拟机磁盘的 vSAN 存储策略中的磁盘带数。
报告的常见拥堵类型以及解决方法
下面列出了拥堵类型和每种类型的补救措施：
SSD 拥堵：特定磁盘组的写入 IO 的活动工做集显著大于该磁盘组缓存层的大小时，一般会引起 SSD 拥堵。在混合和全闪存 vSAN 群集中，数据首先写入到写入缓存（也称为写入缓冲区）。一个称为降级转储的进程会将数据从写入缓冲区移至容量磁盘。写入缓存承受较高的写入速率，从而确保写入性能不受容量磁盘的限制。不过，若是基准以很是快的速率填充写入缓存，降级转储进程可能跟不上到达 IO 速率。在这种状况下，会引起 SSD 拥堵，以指示 vSAN DOM 客户端层将 IO 减速到 vSAN 磁盘组能够处理的速率。

补救措施：要避免 SSD 拥堵，请调整基准所用的虚拟机磁盘的大小。为达到最佳效果，咱们建议虚拟机磁盘（活动工做集）的大小不超过全部磁盘组写入缓存累计大小的 40%。请注意，对于混合 vSAN 群集，写入缓存的大小为缓存层磁盘大小的 30%。在全闪存群集中，写入缓存的大小是缓存层磁盘的大小，但不该超过 600 GB。日志

日志拥堵：vSAN LSOM 日志（存储未降级转储的 IO 操做的元数据）消耗写入缓存中的大量空间时，一般会引起日志拥堵。

一般状况下，小工做集上的大量小规模写入会致使出现大量 vSAN LSOM 日志条目，因而会致使出现这种类型的拥堵。此外，若是基准不发出 4K 对齐 IO，则 vSAN 堆栈上的 IO 数将增长，从而引起 4K 对齐。IO 数增长可能会致使日志拥堵。

补救措施：检查基准是否与 4K 边界上的 IO 请求一致。若是不一致，请检查基准是否使用一个很是小的工做集（访问虚拟机磁盘的总大小低于缓存层大小的 10% 时，则认为工做集较小。请参见上文有关如何计算缓存层大小的内容）。若是是，请将工做集增长到缓存层大小的 40%。若是以上两个条件都不成立，将须要经过如下两种方法减小写入流量：减小基准发出的未完成 IO 数或减小基准建立的虚拟机数量。

组件拥堵：这种拥堵代表，因为某些组件的 IO 请求排入队列，导致这些组件存在大量的未完成提交操做。这可能会致使延长滞后时间。一般状况下，几个虚拟机磁盘的大量写入会致使出现这种拥堵。

补救措施：增长基准所用的虚拟机磁盘数。确保基准不向少许虚拟机磁盘发出 IO。

内存和 Slab 拥堵：内存和 slab 拥堵一般意味着 vSAN LSOM 层所用的堆内存空间或 slab 空间不足，没法维持其内部数据结构。vSAN 会为内部操做置备必定量的系统内存。可是，若是基准积极地发出 IO，而没有任何限制，则可能会致使 vSAN 用光全部为其分配的内存空间。

补救措施：减少基准的工做集。或者，在体验基准时提升如下设置以增长为 vSAN LSOM 层预留的内存量。请注意，这些设置是针对每一个磁盘组的。此外，咱们不建议在生产群集上使用这些设置。能够经过 esxcli 更改这些设置（请参见知识库文章 1038578），以下所示：

/LSOM/blPLOGCacheLines，默认值为 128 K，增长至 512 K/LSOM/blPLOGLsnCacheLines，默认值为 4 K，调整为 32 K/LSOM/blLLOGCacheLines，默认值为 128，增长至 32 K