HDFS- High Availability

时间 2019-11-07

标签 hdfs high availability 栏目 Hadoop 繁體版

原文原文链接

NameNode High Availability

Background

Hadoop2.0.0以前，NameNode存在单点失败（single point of failure） (SPOF) 问题。html

出现单点失败的缘由：node

（1）NameNode所在的机器挂了；apache

（2）NameNode所在的机器须要硬件或者软件上的更新维护。安全

新的NameNode须要app

（1）将FS Image加载到内存ide

（2）Replay edit logoop

（3）从DataNodes接收到足够的Block报告从而离开安全模式；ui

才能从新开始服务。spa

在包含大量文件和Blocks的大的集群中，namenode的冷启动可能须要30min或更久。操作系统

NameNode会按期将文件系统的命名空间（文件目录树、文件/目录元信息）保存到FS Image中，从而在NameNode由于掉电或者崩溃而宕机时，NameNode重启动以后能够从磁盘加载出FS Image文件从新构造命名空间。可是若是实时地将命名空间同步到FS Image中，将会消耗大量的系统资源，形成NameNode运行缓慢。所以，NameNode会先将命名空间的修改操做保存着在Edit Log中，而后按期合并FS Image和Edit Log。Hadoop 2.X以前，由Secondary NameNode进行FS Image和Edit Log的合并。Hadoop 2.X以后，由Standby NameNode进行合并，合并完再发送给Active NameNode。

Architecture

NameNode HA包含两个NameNode，在任意一个时刻，只有一个NameNode是的状态是Active，另外一个是NameNode的状态是Standby，此外还包含ZooKeeper Failover Controller（ZKFC）、ZooKeeper以及共享编辑日志（share edit log）。 Active NameNode负责全部客户端对集群的操做， Standby NameNode做为slave，维护状态信息以便在提供快速的故障转移。以下图所示。

实现HA的流程

（1）集群启动后，一个NameNode处于Active的状态，提供服务，处理客户端和DataNodes的请求，并把修改写到edit log，而后将edit log写到本地和共享编辑日志（NFS、QJM等）。

共享编辑日志分两种：

1：若是是NFS，那么主、从NameNode访问NFS的一个目录或者共享存储设备，Active Node对namespace的修改记录到edit log中，而后将edit log存储到共享目录中。Standby NameNode将共享目录中的edit log 写到本身的namespace

2：若是是QJM，那么主、从NameNode与一组单独的称为Journal Nodes（JNs）的守护线程进行通讯，Active Node将修改记录到大多数（> (N / 2) + 1，N是Journal Nodes的数量），Standby NameNode可以从JNs读到修改并写到本身的namespace中

（2）另一个NameNode处于Standby状态，它启动时加载FS Image文件，Standby NameNode会不断将读入的edit log文件与当前的命名空间合并，从而始终保持着一个最新版本的命名空间，因此Standby NameNode秩序按期将本身的命名空间写入一个新的FS Image文件，并经过HTTP协议将这个FS Image文件传回Active NameNode便可。

在发生故障转移时，Standby节点须要确保本身已经从共享编辑日志读到了全部的edit log以后，才会变成Active节点。这保证了namespace状态的彻底同步。

（3）为了实现Standby NameNode在Active NameNode失败以后可以快速提供服务，每一个DataNode须要同时向两个NameNode发送块的位置信息和心跳【块报告（block report）】，由于NameNode启动最费时的工做就是处理全部DataNodes的块报告。为了实现热备，增长ZKFC和ZooKeeper，经过ZK选择主节点，Failover Controller经过RPC让NameNode转换为主或从。

（4）当Active NameNode失败时，Standby NameNode能够很快地接管，由于在Standby NameNode的内存中有最新的状态信息（1）最新的edit log（2）最新的block mapping

高可用的共享存储的两种选择：NFS和QJM

quorum journal manager(QJM)是HDFS专门的实现，惟一的目的就是提供高可用的edit log，是大多数HDFS的推荐选择。

QJM的工做过程：QJM运行一组journal nodes，每一个edit必须被写入到majority的journal nodes中。一般，journal nodes的数量是3（至少是3个），所以每一个edit必须被写入到至少两个journal nodes，容许一个journal nodes失败。【与ZooKeeper类似，可是QJM不是依赖ZooKeeper实现的】

使用 Fencing（隔离）来防止"split-brain"（脑裂）

Why Fencing？

slow network or a network partition能够触发故障转移，即便以前的Active NameNode仍然在正常运转而且认为它本身仍然是Active NameNode，这时HA就须要确保阻止这样的NameNode继续运行。

两种隔离

（1）经过隔离保证在同一时刻主NameNoel和从NameNode只有一个可以写共享编辑日志

（2）DataNode隔离：对客户端进行隔离，要确保只有一个NameNode可以响应客户端的请求

对于HA集群来讲，同一时刻只能有一个Active NameNode，不然namespace的状态很快就会发散成两个，形成数据丢失以及其余不正确的结果，即"split-brain"。为了防止这种状况发生，对于共享存储必须配置隔离（fencing）方法。在故障转移期间，若是不能断定以前的Active 节点放弃了他的Active状态，隔离处理负责切断切断以前的Active节点对共享编辑存储的访问，这就防止了以前Active节点对namespace的进一步编辑，从而使得新的Active节点可以安全地进行故障转移。（即一旦主NameNode失败，那么共享存储须要当即进行隔离，确保只有一个NameNode可以命令DataNodes。这样作以后，还须要对客户端进行隔离，要确保只有一个NameNode可以响应客户端的请求。让访问从节点的客户端直接失败，而后经过若干次的失败后尝试链接新的NameNode，对客户端的影响是增长一些重试时间，但对应用来讲基本感受不到。）

Why QJM recommended?

QJM在同一个时刻只容许一个NameNode写edit log；然而，以前的Active NameNode仍有可能为客户端的旧的读请求服务，此时能够设置SSH fencing命令来杀死NameNode的进程。

因为NFS不可能在同一个时刻只容许一个NameNode向它写数据，所以NFS须要更强的fencing方法，包括：

一、revoking the namenode’s access to the shared storage directory (typically by using a vendor-specific NFS command)；

二、disabling its network port via a remote management command；

三、STONITH, or “shoot the other node in the head,” which uses a specialized power distribution unit to forcibly power down the host machine.

Failover Controller

从Active NameNode到Standby NameNode的转换经过Failover Controller实现。Hadoop的FC的默认实现是基于ZooKeeper的，从而确保只有一个Active NameNode。Failover Controller的做用是监控NameNode、操做系统、硬件的健康状态，若是出现NameNode的失败，则进行故障转移。

NOTE：HA集群中的Standby NameNode同时为namespace的状态执行检查点（HA上运行Secondary NameNode, CheckpointNode, or BackupNode是错误的）

参考：

（1）《Hadoop The Definitive Guide 4th》

（2）http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html