HDFS Federation(翻译)

时间 2019-11-06

标签 hdfs federation 翻译栏目 Hadoop 繁體版

原文原文链接

这个指南提供了一个关于HDFS Federation 特性和怎么配置管理一个联邦集群的概览。html

Background

HDFS主要包括两层：node

Namespaceweb

由目录，文件和块组成
支持全部文件系统操做包括增长，删除，修改和列出文件和目录

Block Storage Service 有两个部分：apache

Block管理（被NameNode包含）
- 提供datanode集群的注册和按期的心跳检查
- 处理block的报告并掌握block的位置
- 支持block的相关操做，如增删改查和获得block的位置

管理副本位置，管理副本的复制和删除

存储-由提供datanodes的本地系统提供存储，容许读写。

以前HDFS的架构只容许整个集群中存在一个namespace。一个独立的Namenode管理这个namespace。HDFS Federation经过加入多个Namenodes/namespaces到集群当中解决了以前架构的限制。架构

Multiple Namenodes/Namespaces

为了水平扩展name services，Federation使用多个独立的Namenodes/namespaces。这些NameNode之间结成联邦，即Namenodes是独立的,不须要互相协调。DataNode被全部的NameNode使用用来做为通用的数据块存储设备。每个DataNode注册集群中全部的NameNode。Datanodes发送心跳和block报告而且处理NameNode发送的命令。

Users may use ViewFs to create personalized namespace views, where ViewFs is analogous to client side mount tables in some Unix/Linux systems.jsp

Block 池：ide

一个block池是一个隶属于一个namespace的全部block的集合。DataNode为全部的block池储存集群当中的block信息。block池被独立管理，互不影响。这个设计将容许为新的block产生Block ID并不会须要其余的namespace。一个NameNode出问题也不会影响datanode为集群中的其余NameNode服务。Namespace及其block池在一块儿叫作 Namespace Volume（Namespace 卷）。它是一个独立的单位管理。当一个Namenode/namespace被删除的时候，在datanodes中的对应的block池也会被删除。在集群升级时，一个namespace volume是一个升级单元。oop

ClusterID性能

一个新的标识ClusterID用来标示集群当中全部的节点。当一个Namenode被格式化，这个标识符或自动生成的。这个ID会被用来格式化集群中的其余Namenode。spa

关键的好处

Namespace扩展性-HDFS集群存储能够水平扩展可是namespace不行。大型部署或者是小文件较多的系统能够经过向集群添加更多的NameNode获益。
性能-以前的架构中，文件系统的吞吐量受限于单一NameNode。添加更多的NameNode会提升读写的吞吐量
隔离 - 单一NameNode没法隔离多用户环境，实验的程序可能形成Namenode变慢，影响生产环境，多个Namenodes使得不一样类别的应用程序和用户能够分离不一样的名称空间。

Federation Configuration

Federation配置是向后兼容,容许现有的单一Namenode配置工做,不会有任何改变。新的配置被设计成集群当中的全部节点拥有着相同的配置而且并不须要为不一样的机器设置不一样的配置文件。

Federation中添加了一个新的抽象NameServiceID。Namenode以及对应的Secondary/backup/checkpointer节点都属于这个。支持单个配置文件，Namenode以及对应的econdary/backup/checkpointer配置参数经过NameServiceID后缀标示，并能够添加到一样的配置文件当中。

配置

第一步：添加下面的配置到你的配置文件当中：

dfs.nameservices: 配置与逗号分隔NameServiceIDs列表

这是为了Datanodes用来肯定集群中的全部Namenodes。

第二步：为每个Namenode以及Secondary/backup/checkpointer节点添加后缀为对应的NameServiceID的配置到通用配置文件：

Daemon	Configuration Parameter
Namenode	dfs.namenode.rpc-address dfs.namenode.servicerpc-address dfs.namenode.http-address dfs.namenode.https-address dfs.namenode.keytab.file dfs.namenode.name.dirdfs.namenode.edits.dir dfs.namenode.checkpoint.dir dfs.namenode.checkpoint.edits.dir
Secondary Namenode	dfs.namenode.secondary.http-address dfs.secondary.namenode.keytab.file
BackupNode	dfs.namenode.backup.address dfs.secondary.namenode.keytab.file

下面是一个两个namenode的简单配置例子：

<configuration>
  <property>
    <name>dfs.nameservices</name>
    <value>ns1,ns2</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns1</name>
    <value>nn-host1:rpc-port</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns1</name>
    <value>nn-host1:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.secondaryhttp-address.ns1</name>
    <value>snn-host1:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns2</name>
    <value>nn-host2:rpc-port</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns2</name>
    <value>nn-host2:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.secondaryhttp-address.ns2</name>
    <value>snn-host2:http-port</value>
  </property>

  .... Other common configuration ...
</configuration>

格式化NameNode

第一步：格式化namenode，命令以下：

> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format [-clusterId <cluster_id>]

选择一个不一样的cluster_id，保证不会和其余的集群冲突，若是不提供的话，他会自动生成一个不一样的ClusterID

第二步： 格式化添加的namenode，能够用下面的命令：

> $HADOOP_PREFIX_HOME/bin/hdfs namenode -format -clusterId <cluster_id>

注意：第二步使用的cluster_id不行要和第一步相同，若是不相同的话，添加的Namenode将不会在联邦集群中起做用

从老版本升级以后而且配置联邦

早期的版本只能支持单一的Namenode，下面的步骤能够是联邦可用：

第一步：升级集群。在升级过程当中你一个提供一个ClusterID：

> $HADOOP_PREFIX_HOME/bin/hdfs start namenode --config $HADOOP_CONF_DIR  -upgrade -clusterId <cluster_ID>

若是不提供那么会自动生成。

添加一个新的NameNode到一个既存的HDFS集群

按照如下步骤：

添加配置参数dfs.nameservices到配置文件
使用NameServiceID 做为后缀更新配置文件。配置的key名字已经和0.20不一致了，必须使用新的配置参数名
添加新的NameNode相关配置到配置文件当中
将配置文件同步到集群当中的全部节点
启动新的Namenode, Secondary/Backup节点
刷新datanode获取新添加的namenode，使用下列命令：

> $HADOOP_PREFIX_HOME/bin/hdfs dfadmin -refreshNameNode <datanode_host_name>:<datanode_rpc_port>

在集群中全部的datanodes运行上面的命令

Managing the cluster

Starting and stopping cluster

启动：

> $HADOOP_PREFIX_HOME/bin/start-dfs.sh

中止：

> $HADOOP_PREFIX_HOME/bin/stop-dfs.sh

这些命令能够在在HDFS运行的任何节点运行。命令将肯定namenode而且启动这些namenode。datanode是经过slaves文件指定的。脚本能够做为参考来构建本身启动和中止集群的脚本。

Balancer

Balancer 已经被用来改变集群中多个NameNode的的平衡。能够运行下面的命令：

> "$HADOOP_PREFIX"/bin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script "$bin"/hdfs start balancer [-policy <policy>]

Policy：

datanode -默认的策略。这个会平衡datanode的存储，和先前的版本相似。
blockpool - 针对block 池平衡。平衡block池存储也会平衡datanode。

注意Balande只平衡数据和不平namespace。

Decommissioning

退役和先前的版本相似。退役的节点须要被添加到在全部Namenode的exclude文件中。每个Namenode退役它对应的block 池当全部的Namenode完成了datanode的退役，那么这个datanode就能够退役了

第一步：分发一个exclude文件到全部的NameNode，以下：

> "$HADOOP_PREFIX"/bin/distributed-exclude.sh <exclude_file>

第二步：刷新全部NameNode使用新的exclude文件

> "$HADOOP_PREFIX"/bin/refresh-namenodes.sh

上面的命令将使用HDFS配置文件肯定集群的Namenode，使用新的exclude文件刷新全部的Namenode。

Cluster Web Console

和NameNode的web页面相似，集群的web cosole用来监视集群 http://<any_nn_host:port>/dfsclusterhealth.jsp。任何集群中的NameNode均可以进入这个页面

页面提供了：

集群的综述，包括文件的数目，block的数目总存储容量可用和空闲的空间等
提供namenode的列表和每一个namenode的files，blocks，missing blocks，number of live and dead data nodes数量。同事提供一个链接去每个Namenode 的web页面
退役datanode的状态