Hadoopd的体系架构

HDFS架构

 

  • NameNode,元数据,消耗资源
  • DataNode,保存数据
  • Secondary NameNode,定期备份NameNode

YARN架构

 

 

工作流程:

  • client提交任务,像ResourceManager(RM)发出申请,整个集群能干多少事,RM负责
  • RM找到有空的Node Manager(NM), 每个Node Manager分管单个节点上的资源,NM还能干多少事需要给RM汇总
  • NM接洽client, 找来(新建)项目负责人,App Master(AM),AM负责项目跟进,AM为了完成项目需要多少资源需要向RM申请
  • RM从所有NM中找到空闲资源交给该AM管理
  • 需要注意,一个NM下的任务是多个的,所以有多个AM,同时,每个AM得到的资源可以来自多个NM

 

MR的架构

 

其实这个只是一种计算思想,切分任务map,合并reduce

大数据生态体系

 

 

基于hadoop发展出来的生态体系。

  • 不同数据被不同方式的系统处理
  • 由YARN调度资源
  • 任务处理分为离线和实时,同时也是不同框架负责
  • 数据计算之上就是任务调度以及顶层的业务层面
  • 所有框架之间的协调者,zookeeper