上一章介绍了一些hadoop的实战分析案例,本章将介绍hadoop的高可用以及初步认识hive。node
1、Hadoop的HA机制
前言:正式引入HA机制是从hadoop2.0开始,以前的版本中没有HA机制;HA的运做机制:
(1)hadoop-HA集群运做机制介绍:所谓HA,即高可用(7*24小时不中断服务),实现高可用最关键的是消除单点故障,hadoop-ha严格来讲应该分红各个组件的HA机制——HDFS的HA、YARN的HAmysql
(2)HDFS的HA机制详解:经过双namenode消除单点故障,双namenode协调工做的要点:
A、元数据管理方式须要改变:内存中各自保存一份元数据,Edits日志只能有一份,只有Active状态的namenode节点能够作写操做,两个namenode均可以读取edits,共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现)
B、须要一个状态管理功能模块:实现了一个zkfailover,常驻在每个namenode所在的节点,每个zkfailover负责监控本身所在namenode节点,利用zk进行状态标识,当须要进行状态切换时,由zkfailover来负责切换,切换时须要防止brain split(脑裂--在不少高可用系统中都或多或少存在这一的风险,如:基于keeperalived的mysql高可用主备架构)现象的发生。sql
2、HA架构图服务器
a.hadoop的高可用机制架构
b.hadoop的federation机制(name node容量的水平扩展)oop
3、最后总结大数据
hadoop的联邦机制其实就至关因而将不一样的服务器按照不一样的磁盘进行分区,不一样的分区各自负责不存储不一样的路径下的服务;当是对外提供统一的访问方式,可让其在客户端看起来是同一台服务器同样。在联邦机制下,全部name node节点的clusterID必须配置成同样,且联邦机制下的data node是对所有name node共享的,在data node上blockPool目录可能有多个,分别对应不一样的name node(HA)集群存的数据。HA集群中因为standby的存在,它能够用来作checkpoint,因此不存在second name node这个节点。日志
最后寄语,以上是博主本次文章的所有内容,若是你们以为博主的文章还不错,请点赞;若是您对博主其它服务器大数据技术或者博主本人感兴趣,请关注博主博客,而且欢迎随时跟博主沟通交流。blog