1.问题现象安全
Hadoop集群HDFS、YARN、Hive等服务出现异常告警服务器
重启集群异常告警任然存在大量告警dom
Cluster 1oop
HDFS代理
可用空间抑制...日志
NameNode 运行情况抑制...
HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118) 日志文件code
NameNode 链接抑制...blog
DataNode (ip-172-31-5-190) 日志文件进程
NameNode 链接抑制...ip
DataNode (ip-172-31-9-33) 日志文件
NameNode 链接抑制...
Hive Metastore Server (ip-172-31-6-148) 日志文件
Hive Metastore Canary 抑制...
Impala Daemon (ip-172-31-10-118) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-5-190) 日志文件
进程状态抑制...
Impala Daemon (ip-172-31-9-33) 日志文件
进程状态抑制...
NameNode (ip-172-31-6-148) 日志文件
安全模式状态抑制...
Server (ip-172-31-5-190) 日志文件
Quorum 成员资格抑制...
Zookeeper服务“Quorum 成员资格”告警
CM节点上的全部服务的角色日志不能正常经过ClouderaManager控制台查看,显示以下错误:
2.问题复现
集群环境:
1.还原现场配置,全部服务器hosts配置文件配置
127.0.0.1 ip-172-31-10-156.ap-southeast-1.compute.internal 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal 172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal 172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal 172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal
配置中的第一行配置为多出的异常配置。
在主机上ping本身的hostname显示
2.重启集群服务
CM出现以下大量告警
Cluster 1 HDFS 可用空间抑制... NameNode 运行情况抑制... HDFS 金丝雀抑制... DataNode (ip-172-31-10-118) 日志文件 NameNode 链接抑制... DataNode (ip-172-31-5-190) 日志文件 NameNode 链接抑制... DataNode (ip-172-31-9-33) 日志文件 NameNode 链接抑制... Hive Metastore Server (ip-172-31-6-148) 日志文件 Hive Metastore Canary 抑制... HiveServer2 (ip-172-31-6-148) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-10-118) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-5-190) 日志文件 进程状态抑制... Impala Daemon (ip-172-31-9-33) 日志文件 进程状态抑制... NameNode (ip-172-31-6-148) 日志文件 安全模式状态抑制... Server (ip-172-31-5-190) 日志文件 Quorum 成员资格抑制... ip-172-31-10-118 代理状态抑制... ip-172-31-5-190 代理状态抑制... ip-172-31-9-33 代理状态抑制...
Zookeeper与现场告警一致,且Zookeeper服务以下状态
在查看CM节点的日志出现以下异常“Connection refused”
Host列表监控状态
3.问题缘由
集群在运行正常的状况下,全部节点的hosts文件被修改成127.0.0.1致使
4.解决方法
修改全部节点的hosts文件,将127.0.0.1行配置注释
重启集群服务恢复正常;
醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不愿放,数据玩的花!
推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。