Hadoop Ha高可用架构

1. 什么是Ha?

Ha(High availability )高可用性。Hadoop Ha可以有多个namenode结点,一个是活跃(active)状态,一个是准备(standby)状态。

2. 为什么提出Ha?

HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。影响HDFS集群不可用主要包括以下两种情况:一是NameNode机器宕机,将导致集群不可用,重启NameNode之后才可使用;二是计划内的NameNode节点软件或硬件升级,导致集群在短时间内不可用。
为了解决上述问题,Hadoop给出了HDFS的高可用HA方案:HDFS通常由两个NameNode组成,一个处于active状态,另一个处于standby状态. Active NameNode对外提供服务,比如处理来自客户端的RPC请求,而Standby NameNode则不对外提供服务,仅同步Active NameNode的状态,以便能够在它失败时快速进行切换。

3. Ha机制图示

在这里插入图片描述

4. 有关Ha常见疑问

  • 能否让两个namenode都正常响应客户端请求?
    不能,这样会造成元数据的冲突。应该让两个namenode在同一时间内只有一个来响应客户端的请求,响应请求的必须为状态为active的那一台。
  • standby的状态如何快速无缝的转化为active状态?
    edits文件放在journalnode里面,而qjournal依赖zookeeper实现,从而实现协调管理,快速转换状态。
  • 如何在状态切换时发生brain split现象? fencing机制: (1)ssh向原先为active状态的namenode发送kill指令; (2)若发送的kill指令没有响应,则执行自定义shell脚本。