HDFS分布式文件系统

时间 2019-11-09

原文原文链接

Hadoop的简介：node

Hadoop是apache软件基金会的开源分布式计算平台hadoop集群包括两种角色Mater和Slave。一个HDFS集群由一个运行于Master上的NameNode和若干个运行于Slave节点的DataNode组成。NameNode负责管理文件系统命名空间和客户端对文件系统的访问操做；DataNode管理存储的数据。文件以块形式在DataNode中存储，假如一个块大小设置为50MB，块的副本数为3（经过设置块的副本数来达到冗余效果，防止单个DataNode磁盘故障后数据丢失），一个40MB的文件将被存储在一个块中，而后将相同的3个块存储在3个DataNode中实现冗余。大文件将被切成小块存储。web

本案例的目的是搭建hadoop的HDFS,经过DataNode节点的添加与删除实现HDFS空间动态增长与减小，以及HDFS文件系统的基本管理。apache

案例环境：浏览器

案例实施：安全

1.准备环境ssh

在master、slave1 - 3上配置域名解析、主机名分布式

（1）配置host解析ide

（2）修改各自的主机名oop

在192.168.0.11主机spa

在192.168.0.12主机

在192.168.0.13主机

（3）JDK安装

（4）添加hadoop运行用户

同理在slave1 - slave3上重复步骤（3）和步骤（4）

2.配置SSH密钥对

要求master免密码登陆各slave，用于开启相应服务。

Master无密码链接slave，先切换hadoop用户，用ssh-keygen按照默认配置直接按Enter键生成密钥对，经过ssh-copy-id将公钥复制至3个slave主机中，复制过程须要输入slave主机的hadoop用户密码，做用是master远程启动slave

3.安装hadoop，在master和slave上设置环境变量

（1）安装hadoop

（2）配置环境变量

（3）配置hadoop

各slave主机也须要安装hadoop并设置环境变量，第三步由master经过SSH安全通道复制给各slave

4.使用HDFS初始化master

（1）格式化HDFS文件系统

（2）检查新生成的目录

（3）启动hadoop群集

启停hadoopde的管理命令位于@HADOOP_HOME/sbin下，以start-*或stop-*开头；单独启动HDFS分布式文件系统可以使用start-dfs.sh,也能够使用如下命令启动整个hadoop集群。

（4）验证访问

经过浏览器查看Namenode，即master，访问http://192.168.0.10:50070/，

能够查看视图统计信息和HDFS存储信息等。

验证以前先关闭master和全部slave的防火墙

（5）Hadoop基本命令

使用“hadoop fs”命令能够结合普通的文件管理命令实现不少操做，如查看、修改权限、统计、获取帮助、建立、删除、上传下载文件等，更多的用法可以使用“hadoop fs -help”或“hadoop fs -usage”命令查看

（6）HDFS高级命令

开启安全模式

复制

将本地文件复制到HDFS上

将HDFS上文件复制到本地

权限和归属

修改属组

修改权限

修改全部者

统计显示目录中文件大小

合并文件

5.为HDFS集群添加节点

（1）slave4节点安装jdk与hadoop，配置环境变量、添加用户

（2）配置/etc/hosts解析，Namenode与4台DataNode都要配置

（3）配置ssh无密码链接

（4）在master上修改hadoop配置后，复制到其余节点

(5)新节点启动并平衡节点已经存储数据

（6）查看集群信息

6.删除DataNode节点

（1）增长exclude配置，做用为存放要删除的DataNode信息

（2）检查slave4的进程

（3）查看集群信息