yarn ha

wKioL1NTqRvjeW0jAAIlrJlyS0A322.jpg

wKioL1NTqgbD3APxAAIqbqvifCM086.jpg

wKiom1NTqi_Qk8MFAAIr2YLssEM219.jpg

HDFS+MapReduce。共同点都是分布式的,主从关系结构。分布式

 HDFS是包括主节点NameNode,只有一个;还有从节点DataNode,有不少个。ide

 NameNode含有咱们用户存储的文件的元数据信息。把这些数据存放在硬盘上,可是在运行时是加载在内存中的。spa

 缺点:(1)当咱们的NameNode没法在内存中加载所有元数据信息的时候,集群的寿命到头了。设计

       (2)权限设计是不够完全的blog

(3)大量小文件的存储的话,会形成NameNode的内存压力骤增。内存

 改进:(1)2个NameNode一块儿共存,组成hdfs federation。资源

       (2)HA 自动、手工  get

 MapReduce包括主节点JobTracker,只有一个;还有从节点TaskTracker,有不少个。it

 JobTracker主要的工做是管理用户提交的做业和分配资源。io

 缺点:(1)对于实时性做业和批处理做业,须要搭建不一样的集群环境,每一个集群的资源利用率是不高的。

       (2)MapReduce职责过多,须要分解。

 Yarn是一个平台,用于处理资源分配和运行任务的。

相关文章
相关标签/搜索