2.马士兵_hadoop初识

1.namenode启动:hadoop-daemon.sh start namenode,datanode启动:hadoop-daemon.sh start datanodehtml

2.查看namenode状态信息:hdfs dfsadmin -report|more;查看进程:netstat -ntlp;能够打开web页查看集群状况:http://192.168.56.100:50070;其中utilities能够查看目录树block状况,能够查看启动日志,若是出问题了能够看看。java

3.默认hadoop会把数据放到tmp目录下面,因此可能会被清理掉。node

4.namenode关闭:hadoop-daemon.sh stop namenode,datanode关闭:hadoop-daemon.sh stop datanodelinux

5./usr/local/hadoop/etc/hadoop/slaves 这个文件集中管理着相关的子节点信息。web

6.若是考虑管理的datanode节点不少,就要集中式的管理,那么就在/usr/local/hadoop/etc/hadoop/slaves中配置相关datanode节点后,namenode调用后直接发送命令给相应机器便可。命令是:start-dfs.sh,secondaaryNamenode启动就启动吧。shell

7.每次启动这么多slave机器,自动密码如何设置呢?咱们把master生成的公钥传给slave,root用私钥登陆后,slave用公钥能够解密成功,那就不须要在输入密码了。框架

cd ;.ssh;ssh-copy-id slave1/slave2/slave3;ssh slave1直接登陆成功。start-dfs.sh,stop-dfs.sh。若是防火墙没开的话应该就能够控制启动关闭了。若是slave数量很大,用shell脚本1次性copy。ssh

8.hdfs就当作一块大硬盘,hadoop fs -ls /,能够查看全部文件系统的。大部分命令和linux使用差很少。如删除文件,hadoop fs -rm /hello.txt。以下面这些经常使用命令的使用:分布式

9.如何修改文件保存的block数量呢?怎么查这些配置文件呢?oop

在hadoop的安装包下面有doc能够查看:F:\BaiduNetdiskDownload\hadoop-2.7.3\share\doc\hadoop\index.html,如查询dfs.replication后修改后重启集群,上传新文件就会发现是2块了。

10.下面咱们测试若是kill了slave3,那block可否自动复制到slave1上呢,自动冗余?

为了观察方便,咱们把master的心跳检查调小点。修改hdfs-site.xml的属性后(dfs.namenode.heartbeat.recheck-interval),重启。stop slave3后,block1节点确实自动从slave2复制到slave1上了。原来是在slave2和slave3上。

实验后发现slave3启动后也没有删掉刚才的块。

总结:

1.hadoop一台机器能够带动上百上千台机器,很容易动态扩展。hdf是主流的,只不过在上的计算框架和引擎竞争比较多。

2.伪分布式程序能够做为单机的java开发测试使用,部署生产效果理论类似。动态扩展只要core-site.xml中指定master地址就能自动发现。

相关文章
相关标签/搜索