[大数据学习研究] 错误排查，Hadoop集群部分DataNode不能启动

时间 2019-11-06

标签数据学习研究错误排查 hadoop 集群部分 datanode 不能启动栏目 Hadoop 繁體版

原文原文链接

错误现象

不知道什么缘由，今天发现个人hadoop集群启动后datanode只有一台了，个人集群原本有三台的，怎么只剩一台了呢？node

用jps命令检查一下，发现果真有两台机器的DataNode没有启动。apache

可能缘由：

1. 我以前遇到过的问题，因为屡次运行hdfs namenode -format, 形成了clusterId不一致，检查一下：进入到/opt/modules/hadoop-2.7.3/data/tmp/dfs/data/current目录下，cat显示一下VERSION文件的内容，检查集群中的几台机器的ClusterID是否是一致。个人机器这三台机器的clusterid是一致的，看起来没问题。若是要是不一致的话，须要改过来，改为一致的，而后用 hadoop-daemon.sh start datanode 就能够启动datanode了，个人不是这个问题引发的，还得继续排查。oop

2. 不知道什么缘由，仍是看看日志，进入的出问题的机器上的logs目录下，打开日志文件，跳到最后，从后面往前看，终于在一堆INFO里面看到一条ERROR：spa


[root@hadoop101 logs]# pwd
/opt/modules/hadoop-2.7.3/logs [root@hadoop101 logs]# vi hadoop-root-datanode-hadoop101.log

2019-10-14 14:25:22,376 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM

解决问题

什么缘由引发的不清楚，放狗搜了一下，有人说重启服务就行了，固然仍是要试一下这个重启大法。关闭服务，再重启一下相关服务，就解决了，好没趣。3d

stop-all.sh
等带完成
start-dfs.sh

start-yarn.sh

另外，这个帖子里说调用一下hadoop dfsadmin -refreshNodes就行了，但我没用上，反正先重启就搞定了，要还有下次的话再试试吧。日志