相比于 Hadoop 1.0,Hadoop 2.0 中的 HDFS 增长了两个重大特性,HA 和 Federaion。HA 即为 High Availability,用于解决 NameNode 单点故障问题,该特性经过热备的方式为主 NameNode 提供一个备用者,一旦主 NameNode 出现故障,能够迅速切换至备 NameNode, 从而实现不间断对外提供服务。Federation 即为“联邦”,该特性容许一个 HDFS 集群中存在 多个 NameNode 同时对外提供服务,这些 NameNode 分管一部分目录(水平切分),彼此之 间相互隔离,但共享底层的 DataNode 存储资源。html
本文档重点介绍 HDFS HA 和 Federation 的安装部署方法。 node
在一个典型的 HDFS HA 场景中,一般由两个 NameNode 组成,一个处于 active 状态, 另外一个处于 standby 状态。Active NameNode 对外提供服务,好比处理来自客户端的 RPC 请 求,而 Standby NameNode 则不对外提供服务,仅同步 active namenode 的状态,以便可以在 它失败时快速进行切换。
为了可以实时同步 Active 和 Standby 两个 NameNode 的元数据信息(实际上 editlog), 需提供一个共享存储系统,能够是 NFS、QJM(Quorum Journal Manager)或者 Bookeeper, Active Namenode 将数据写入共享存储系统,而 Standby 监听该系统,一旦发现有新数据写 入,则读取这些数据,并加载到本身内存中,以保证本身内存状态与 Active NameNode 保持 基本一致,如此这般,在紧急状况下 standby 即可快速切为 active namenode。web
注意,在 Hadoop 2.0 中,再也不须要 secondary namenode 或者 backup namenode,它们的 工做由 Standby namenode 承担。
本文将重点介绍基于 QJM 的 HA 解决方案。在该方案中,主备 NameNode 之间经过一组 JournalNode 同步元数据信息,一条数据只要成功写入多数 JournalNode 即认为写入成功。 一般配置奇数个(2N+1)个 JournalNode,这样,只要 N+1 个写入成功就认为数据写入成功, 此时最多容忍 N-1 个 JournalNode 挂掉,好比 3 个 JournalNode 时,最多容许 1 个 JournalNode 挂掉,5 个 JournalNode 时,最多容许 2 个 JournalNode 挂掉。基于 QJM 的 HDFS 架构以下 所示:shell
NameNode 机器:推荐主备 NameNode 具备相同的硬件配置,且内存要足够大。apache
JournalNode:一般准备 3 或 5 个 JournalNode,考虑到 JournalNode 很是轻量级,能够与 Hadoop 其余服务共用机器,好比 ResourceManager,TaskTracker 等。bootstrap
Zookeeper:因为 Hadoop 多个服务用到了 Zookeeper,可搭建一个 3 或者 5 个节点的Zookeeper 实例做为公共服务。Zookeeper 实例也能够与其余服务共用机器。安全
NameNode 机器:推荐主备 NameNode 具备相同的硬件配置,且内存要足够大。session
JournalNode:一般准备 3 或 5 个 JournalNode,考虑到 JournalNode 很是轻量级,能够与 Hadoop 其余服务共用机器,好比 ResourceManager,TaskTracker 等。架构
Zookeeper:因为 Hadoop 多个服务用到了 Zookeeper,可搭建一个 3 或者 5 个节点的Zookeeper 实例做为公共服务。Zookeeper 实例也能够与其余服务共用机器。ssh
NameNode 机器:推荐主备 NameNode 具备相同的硬件配置,且内存要足够大。
JournalNode:一般准备 3 或 5 个 JournalNode,考虑到 JournalNode 很是轻量级,能够与 Hadoop 其余服务共用机器,好比 ResourceManager,TaskTracker 等。
Zookeeper:因为 Hadoop 多个服务用到了 Zookeeper,可搭建一个 3 或者 5 个节点的Zookeeper 实例做为公共服务。Zookeeper 实例也能够与其余服务共用机器。
<property> <name>dfs.nameservices</name> <value>nn</value> <description>Logical name for this new nameservice</description> </property>
hdfs-federation配置,可同时有多个namenode服务:
<property> <name>dfs.federation.nameservices</name> <value>nn1,nn2</value> <description>Logical name for this new nameservice</description> </property>
某个命名服务下包含的 NameNode 列表,可为每一个 NameNode 指定一个自定义的 ID 名称,好比命名服务 nn 下有两个 NameNode,分别命名为 nn1 和 nn2,则配置以下:
<property> <name>dfs.ha.namenodes.nn</name> <value>nn1,nn2</value> <description>Unique identifiers for each NameNode in the nameservice </description> </property>
注意,目前每一个命名服务最多配置两个 NameNode
为每一个 NameNode 设置 RPC 地址,之前面的实例为例,可进行以下配置:
<property> <name>dfs.namenode.rpc-address.nn.nn1</name> <value>nn1:9000</value> </property> <property> <name>dfs.namenode.rpc-address.nn.nn2</name> <value>nn2:9000</value> </property>
为每一个 NameNode 设置对外的 HTTP 地址,之前面的实例为例,可进行以下配置:
<property> <name>dfs.namenode.http-address.nn.nn1</name> <value>192.168.10.110:50070</value> </property> <property> <name>dfs.namenode.http-address.nn.nn2</name> <value>192.168.10.111:50070</value> </property>
设置一组 journalNode 的 URI 地址,active NameNode 将 edit log 写入这些JournalNode,而 standby NameNode 读取这些 edit log,并做用在内存中的目录树中,该属性 值应符合如下格式:
qjournal://host1:port1;host2:port2;host3:port3/journalId
其中,journalId 是该命名空间的惟一 ID。假设你有三台 journalNode,即 dn1, dn2 和 dn3,则可进行以下配置:
<property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://dn1:8485;dn2:8485; dn3:8485;dn4:8485;dn6:8485/nn</value> </property>
注意,JournalNode 默认端口号为 8485
设置客户端与 active NameNode 进行交互的 Java 实现类,DFS 客户端经过该类寻找当前的 active NameNode。该类可由用户本身实现,默认实现为 ConfiguredFailoverProxyProvider。
<property> <name>dfs.client.failover.proxy.provider.nn</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property>
<property> <name>dfs.ha.fencing.methods</name> <value>sshfence</value> </property> <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/home/hadoop/.ssh/id_rsa</value> </property>
你能够配置一个 ssh 用户和端口号,并设置一个超时时间,一旦 ssh 超过该时间,则认为执 行失败。
<property> <name>dfs.ha.fencing.methods</name> <value>sshfence([[username][:port]])</value> </property> <property> <name>dfs.ha.fencing.ssh.connect-timeout</name> <value>30000</value> </property>
2) shell
执行任意一个 shell 命令隔离旧的 active NameNode,配置方法以下:
<property> <name>dfs.ha.fencing.methods</name> <value>shell(/path/to/my/script.sh arg1 arg2 ...)</value> (这里没搞懂) </property>
注意,Hadoop 中全部参数将以环境变量的形似提供给该 shell,但全部的“.”被替换成了“_”, 好比“dfs.namenode.rpc-address.ns1.nn1”变为“dfs_namenode_rpc-address”
设置缺省的目录前缀,需在 core-site.xml 中设置,好比命名服务的 ID 为 mycluster(参 数 dfs.nameservices 指定的),则配置以下:
<property> <name>fs.defaultFS</name> <value>hdfs://nn</value> </property>
JournalNode 所在节点上的一个目录,用于存放 editlog 和其余状态信息。该参数只能设置一个目录,你能够对磁盘作 RIAD 提升数据可靠性。
<property> <name>dfs.journalnode.edits.dir</name> <value>/opt/journal/node/local/data</value> </property>