Hadoop的简介:node
Hadoop是apache软件基金会的开源分布式计算平台hadoop集群包括两种角色Mater和Slave。一个HDFS集群由一个运行于Master上的NameNode和若干个运行于Slave节点的DataNode组成。NameNode负责管理文件系统命名空间和客户端对文件系统的访问操做;DataNode管理存储的数据。文件以块形式在DataNode中存储,假如一个块大小设置为50MB,块的副本数为3(经过设置块的副本数来达到冗余效果,防止单个DataNode磁盘故障后数据丢失),一个40MB的文件将被存储在一个块中,而后将相同的3个块存储在3个DataNode中实现冗余。大文件将被切成小块存储。web
本案例的目的是搭建hadoop的HDFS,经过DataNode节点的添加与删除实现HDFS空间动态增长与减小,以及HDFS文件系统的基本管理。apache
案例环境:浏览器
案例实施:安全
1.准备环境ssh
在master、slave1 - 3上配置域名解析、主机名分布式
(1)配置host解析ide
(2)修改各自的主机名oop
在192.168.0.11主机spa
在192.168.0.12主机
在192.168.0.13主机
(3)JDK安装
(4)添加hadoop运行用户
同理在slave1 - slave3上重复步骤(3)和步骤(4)
2.配置SSH密钥对
要求master免密码登陆各slave,用于开启相应服务。
Master无密码链接slave,先切换hadoop用户,用ssh-keygen按照默认配置直接按Enter键生成密钥对,经过ssh-copy-id将公钥复制至3个slave主机中,复制过程须要输入slave主机的hadoop用户密码,做用是master远程启动slave
3.安装hadoop,在master和slave上设置环境变量
(1)安装hadoop
(2)配置环境变量
(3)配置hadoop
各slave主机也须要安装hadoop并设置环境变量,第三步由master经过SSH安全通道复制给各slave
4.使用HDFS初始化master
(1)格式化HDFS文件系统
(2)检查新生成的目录
(3)启动hadoop群集
启停hadoopde的管理命令位于@HADOOP_HOME/sbin下,以start-*或stop-*开头;单独启动HDFS分布式文件系统可以使用start-dfs.sh,也能够使用如下命令启动整个hadoop集群。
(4)验证访问
经过浏览器查看Namenode,即master,访问http://192.168.0.10:50070/,
能够查看视图统计信息和HDFS存储信息等。
验证以前先关闭master和全部slave的防火墙
(5)Hadoop基本命令
使用“hadoop fs”命令能够结合普通的文件管理命令实现不少操做,如查看、修改权限、统计、获取帮助、建立、删除、上传下载文件等,更多的用法可以使用“hadoop fs -help”或“hadoop fs -usage”命令查看
(6)HDFS高级命令
开启安全模式
复制
将本地文件复制到HDFS上
将HDFS上文件复制到本地
权限和归属
修改属组
修改权限
修改全部者
统计显示目录中文件大小
合并文件
5.为HDFS集群添加节点
(1)slave4节点安装jdk与hadoop,配置环境变量、添加用户
(2)配置/etc/hosts解析,Namenode与4台DataNode都要配置
(3)配置ssh无密码链接
(4)在master上修改hadoop配置后,复制到其余节点
(5)新节点启动并平衡节点已经存储数据
(6)查看集群信息
6.删除DataNode节点
(1)增长exclude配置,做用为存放要删除的DataNode信息
(2)检查slave4的进程
(3)查看集群信息