[Hadoop2.x] Hadoop运行一段时间后，stop-dfs等操做失效缘由及解决方法

时间 2019-11-08

标签 hadoop2.x hadoop 运行一段时间 stop dfs 失效缘由解决方法栏目 Hadoop 繁體版

原文原文链接

长时间运行Hadoop以后，若是运行 stop-dfs.sh（或stop-all.sh），会发现有如下相似错误：node

Stopping namenodes on [localhost]
localhost: no namenode to stop
localhost: no datanode to stop
Stopping secondary namenodes [localhost]
localhost: no secondarynamenode to stopoop

这个时候访问hadoop依然有效，查看文件系统，经过50070端口依然能访问，start-all后再stop-all也没有任何效果，等于这个时候彻底没法控制hadoop了。spa

出现这个问题的最多见缘由是：hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，Linux默认会每隔一段时间（通常是一个月或者7天左右）去删除这个目录下的文件。所以删掉 hadoop-root-namenode.pid, hadoop-root-namenode.pid, hadoop-root-secondarynamenode.pid等pid文件后，namenode天然就找不到datanode上的这两个进程了。进程

另外还有两个缘由可能引发这个问题：hadoop

环境变量 $HADOOP_PID_DIR 在你启动hadoop后改变了
用另外的用户身份执行 stop-dfs.sh 等命令

解决方法：变量

永久解决方法：修改 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 文件，将 export HADOOP_PID_DIR=${HADOOP_PID_DIR} 的 ${HADOOP_PID_DIR} 路径修改成你本身指定目录，这样Hadoop会把相关pid进程文件保存在指定目录，避免被Linux自动删除。例如：map

export HADOOP_PID_DIR=/usr/local/hadoop/pids/grep

发现问题后的解决方法：方法

这个时候经过脚本已经没法中止进程了，不过咱们能够手工中止，经过 ps -ef | grep Java | grep hadoop找到hadoop的全部进程号强制杀掉(kill -9 进程号)，而后再执行 start-dfs.sh, start-yarn.sh 等命令启动hadoop，之后 stop-dfs.sh 等命令就不会生效了。脚本