yarn ResourceManager Active频繁易主问题排查

文章目录 一、故障现象 二、问题分析 RM的HA机制分析 ZK问题分析 部分任务状态更新失败问题分析 三、解决和优化方案 1. 调大 jute.maxbuffer 参数 2. 修改yarn的源码 3. 快速让集群恢复稳定的方法 四、总结 本周三公司的yarn集群出现故障,导致两台ResourceManger频繁易主,并且许多提交到集群的任务状态为 NEW_SAVING,无法执行。这里对此次的故障排
相关文章
相关标签/搜索