Yarn-NodeManager分给Container虚拟内存不足导致Container自杀

时间 2020-12-25

原文原文链接

一、问题再现由于项目需要，采购电信天翼云，由于是新搭建的集群，在yarn上跑Spark任务时，每个几个小时或者半天出现节点丢失（Lost Nodes），访问http://cloudera01:8088，如下图，可以看到2个节点和集群失去了联系二、问题排查 1、登录cm管理界面首先登录cm管理界面，去查看yarn的运行状况，看到2个NodeManager运行不良，点击不良链接 2、点击No