一、hadoop重启不能找到namenode,可能缘由是没有指定临时存储目录,默认会存储到root根目录下的tmp文件中,重启后会消失,因此在core-site.xml文件中加入临时文件配置便可!node
二、hadoop格式化会询问yes or no,yes大写!oop
三、配置SSH时,每台机器都须要配置本身的为密码,master与slaves互相持有其公钥!性能
四、hadoop命令操做Java,优化
bin/hadoop fs -ls,spa
将文件放到hadoop文件下,bin/hadoop fs -put ../input ./inxml
删除文件 bin/hadoop fs -rmr file,并无物理删除,只是放在回收站中,里面能够设置时间阈值,超过阈值删除。hadoop
恢复与清空 bin/hadoop fs -move fileinput
快照:源码
五、修改hdfs源码实现,namenode多点,这样一个namenode宕机不至于形成损失!《HDFS高可用》it
六、HDFS思想是硬件设备坏掉是常态,解决这个的方法就是冗余!
七、datanode一次写入不能修改!
八、心跳机制:datanode向namenode按期发送信号,告诉namenode我还活着!
九、设置hadoop-classpath! hadoop环境变量!
十、分片问题,分片只能很是彻底接近block。
性能调优
十一、combiner 预处理过程,减小带宽,传输速度快!能够优化在此。
十二、处理小文件,将小文件合成大文件。
1三、减小map阶段的输出。
1四、maperd-site.xml设置JVM重用。
1五、若是maperd任务还未完成就出现故障,jobtracker会要求其余节点从新执行该maperd任务。
1六、若是reduce任务还未完成就出现故障,jobtracker会要求其余节点继续执行reduce任务。