hadoop问题

时间 2019-12-06

标签 hadoop 问题栏目 Hadoop 繁體版

原文原文链接

一、hadoop重启不能找到namenode，可能缘由是没有指定临时存储目录，默认会存储到root根目录下的tmp文件中，重启后会消失，因此在core-site.xml文件中加入临时文件配置便可！node

二、hadoop格式化会询问yes or no，yes大写！oop

三、配置SSH时，每台机器都须要配置本身的为密码，master与slaves互相持有其公钥！性能

四、hadoop命令操做Java，优化

bin/hadoop fs -ls,spa

将文件放到hadoop文件下，bin/hadoop fs -put ../input ./inxml

删除文件 bin/hadoop fs -rmr file,并无物理删除，只是放在回收站中，里面能够设置时间阈值，超过阈值删除。hadoop

恢复与清空 bin/hadoop fs -move fileinput

快照：源码

五、修改hdfs源码实现，namenode多点，这样一个namenode宕机不至于形成损失！《HDFS高可用》it

六、HDFS思想是硬件设备坏掉是常态，解决这个的方法就是冗余！

七、datanode一次写入不能修改！

八、心跳机制：datanode向namenode按期发送信号，告诉namenode我还活着！

九、设置hadoop-classpath! hadoop环境变量！

十、分片问题，分片只能很是彻底接近block。

性能调优

十一、combiner 预处理过程，减小带宽，传输速度快！能够优化在此。

十二、处理小文件，将小文件合成大文件。

1三、减小map阶段的输出。

1四、maperd-site.xml设置JVM重用。

1五、若是maperd任务还未完成就出现故障，jobtracker会要求其余节点从新执行该maperd任务。

1六、若是reduce任务还未完成就出现故障，jobtracker会要求其余节点继续执行reduce任务。