HDFS分布式文件系统

Hadoop的简介:node

    Hadoop是apache软件基金会的开源分布式计算平台hadoop集群包括两种角色Mater和Slave。一个HDFS集群由一个运行于Master上的NameNode和若干个运行于Slave节点的DataNode组成。NameNode负责管理文件系统命名空间和客户端对文件系统的访问操做;DataNode管理存储的数据。文件以块形式在DataNode中存储,假如一个块大小设置为50MB,块的副本数为3(经过设置块的副本数来达到冗余效果,防止单个DataNode磁盘故障后数据丢失),一个40MB的文件将被存储在一个块中,而后将相同的3个块存储在3个DataNode中实现冗余。大文件将被切成小块存储。web

   本案例的目的是搭建hadoop的HDFS,经过DataNode节点的添加与删除实现HDFS空间动态增长与减小,以及HDFS文件系统的基本管理。apache

案例环境:浏览器

2018-03-11_122129.png

案例实施:安全

1.准备环境ssh

在master、slave1 - 3上配置域名解析、主机名分布式

(1)配置host解析ide

QQ图片20180311122244.png

QQ图片20180311122304.png

QQ图片20180311122317.png

QQ图片20180311122334.png

QQ图片20180311122424.png

(2)修改各自的主机名oop

在192.168.0.11主机spa

QQ图片20180311122458.png

QQ图片20180311122514.png

QQ图片20180311122528.png

在192.168.0.12主机

QQ图片20180311122545.png

QQ图片20180311122601.png

QQ图片20180311122614.png

在192.168.0.13主机

QQ图片20180311122631.png

QQ图片20180311122647.png

QQ图片20180311122701.png

(3)JDK安装

QQ图片20180311122720.png

QQ图片20180311122735.png

QQ图片20180311122749.png

(4)添加hadoop运行用户

QQ图片20180311122806.png

同理在slave1 - slave3上重复步骤(3)和步骤(4)

2.配置SSH密钥对

要求master免密码登陆各slave,用于开启相应服务。

Master无密码链接slave,先切换hadoop用户,用ssh-keygen按照默认配置直接按Enter键生成密钥对,经过ssh-copy-id将公钥复制至3个slave主机中,复制过程须要输入slave主机的hadoop用户密码,做用是master远程启动slave

QQ图片20180311122821.png

QQ图片20180311122835.png

QQ图片20180311122849.png

QQ图片20180311122905.png

3.安装hadoop,在master和slave上设置环境变量

(1)安装hadoop

QQ图片20180311122919.png

QQ图片20180311122936.png

(2)配置环境变量

QQ图片20180311122952.png

QQ图片20180311123007.png


(3)配置hadoop

2018-03-11_151731.png

QQ图片20180311123036.png

QQ图片20180311123053.png

QQ图片20180311123106.png

2018-03-11_123154.png

QQ图片20180311123241.png

QQ图片20180311123256.png

QQ图片20180311123310.png

QQ图片20180311123324.png

QQ图片20180311123341.png

QQ图片20180311123353.png

QQ图片20180311123407.png

QQ图片20180311123420.png

各slave主机也须要安装hadoop并设置环境变量,第三步由master经过SSH安全通道复制给各slave

QQ图片20180311123434.png

QQ图片20180311123453.png

QQ图片20180311123507.png

4.使用HDFS初始化master

(1)格式化HDFS文件系统

QQ图片20180311123521.png

QQ图片20180311123535.png

(2)检查新生成的目录

QQ图片20180311123549.png

(3)启动hadoop群集

启停hadoopde的管理命令位于@HADOOP_HOME/sbin下,以start-*或stop-*开头;单独启动HDFS分布式文件系统可以使用start-dfs.sh,也能够使用如下命令启动整个hadoop集群。

QQ图片20180311123601.png


(4)验证访问

 经过浏览器查看Namenode,即master,访问http://192.168.0.10:50070/,

能够查看视图统计信息和HDFS存储信息等。

验证以前先关闭master和全部slave的防火墙

QQ图片20180311123619.png

QQ图片20180311123631.png

QQ图片20180311123643.png

QQ图片20180311123658.png


(5)Hadoop基本命令

使用“hadoop   fs”命令能够结合普通的文件管理命令实现不少操做,如查看、修改权限、统计、获取帮助、建立、删除、上传下载文件等,更多的用法可以使用“hadoop fs -help”或“hadoop fs -usage”命令查看

QQ图片20180311123723.png

QQ图片20180311123735.png

QQ图片20180311123758.png

QQ图片20180311123810.png

QQ图片20180311123821.png

(6)HDFS高级命令

开启安全模式

QQ图片20180311123834.png

复制

将本地文件复制到HDFS上

QQ图片20180311123846.png

将HDFS上文件复制到本地

QQ图片20180311123859.png

权限和归属

修改属组

QQ图片20180311123912.png

修改权限

QQ图片20180311123924.png

修改全部者

QQ图片20180311123937.png

统计显示目录中文件大小

QQ图片20180311123950.png

合并文件

QQ图片20180311124002.png

5.为HDFS集群添加节点

(1)slave4节点安装jdk与hadoop,配置环境变量、添加用户

QQ图片20180311124029.png


QQ图片20180311124042.png

(2)配置/etc/hosts解析,Namenode与4台DataNode都要配置

QQ图片20180311124053.png

QQ图片20180311124107.png

QQ图片20180311124124.png

QQ图片20180311124134.png

QQ图片20180311124145.png

QQ图片20180311124156.png

QQ图片20180311124209.png

QQ图片20180311124218.png

(3)配置ssh无密码链接

QQ图片20180311124229.png

(4)在master上修改hadoop配置后,复制到其余节点

QQ图片20180311124241.png

QQ图片20180311124252.png

QQ图片20180311124303.png

QQ图片20180311124314.png

QQ图片20180311124325.png

QQ图片20180311124335.png

(5)新节点启动并平衡节点已经存储数据

QQ图片20180311124348.png

QQ图片20180311124359.png

(6)查看集群信息

QQ图片20180311124409.png

QQ图片20180311124427.png

6.删除DataNode节点

(1)增长exclude配置,做用为存放要删除的DataNode信息

QQ图片20180311124442.png

QQ图片20180311124454.png

QQ图片20180311124505.png

QQ图片20180311124517.png

QQ图片20180311124529.png

(2)检查slave4的进程

QQ图片20180311124544.png

(3)查看集群信息

QQ图片20180311124559.png

相关文章
相关标签/搜索