hadoop问题

一、hadoop重启不能找到namenode,可能缘由是没有指定临时存储目录,默认会存储到root根目录下的tmp文件中,重启后会消失,因此在core-site.xml文件中加入临时文件配置便可!node

二、hadoop格式化会询问yes or no,yes大写!oop

三、配置SSH时,每台机器都须要配置本身的为密码,master与slaves互相持有其公钥!性能

四、hadoop命令操做Java,优化

bin/hadoop fs -ls,spa

将文件放到hadoop文件下,bin/hadoop fs -put ../input  ./inxml

删除文件 bin/hadoop fs -rmr file,并无物理删除,只是放在回收站中,里面能够设置时间阈值,超过阈值删除。hadoop

恢复与清空 bin/hadoop fs -move fileinput

快照:源码

五、修改hdfs源码实现,namenode多点,这样一个namenode宕机不至于形成损失!《HDFS高可用》it

六、HDFS思想是硬件设备坏掉是常态,解决这个的方法就是冗余!

七、datanode一次写入不能修改!

八、心跳机制:datanode向namenode按期发送信号,告诉namenode我还活着!

九、设置hadoop-classpath! hadoop环境变量!

十、分片问题,分片只能很是彻底接近block。

性能调优

十一、combiner 预处理过程,减小带宽,传输速度快!能够优化在此。

十二、处理小文件,将小文件合成大文件。

1三、减小map阶段的输出。

1四、maperd-site.xml设置JVM重用。

1五、若是maperd任务还未完成就出现故障,jobtracker会要求其余节点从新执行该maperd任务。

1六、若是reduce任务还未完成就出现故障,jobtracker会要求其余节点继续执行reduce任务。

相关文章
相关标签/搜索