yarn ha

时间 2021-04-27

标签分布式 ide spa 设计 blog 内存资源 get 栏目 Hadoop 繁體版

原文原文链接

HDFS+MapReduce。共同点都是分布式的，主从关系结构。分布式

HDFS是包括主节点NameNode，只有一个；还有从节点DataNode，有不少个。ide

NameNode含有咱们用户存储的文件的元数据信息。把这些数据存放在硬盘上，可是在运行时是加载在内存中的。spa

缺点：(1)当咱们的NameNode没法在内存中加载所有元数据信息的时候，集群的寿命到头了。设计

(2)权限设计是不够完全的blog

(3)大量小文件的存储的话，会形成NameNode的内存压力骤增。内存

改进：(1)2个NameNode一块儿共存，组成hdfs federation。资源

(2)HA 自动、手工 get

MapReduce包括主节点JobTracker，只有一个；还有从节点TaskTracker，有不少个。it

JobTracker主要的工做是管理用户提交的做业和分配资源。io

缺点：(1)对于实时性做业和批处理做业，须要搭建不一样的集群环境，每一个集群的资源利用率是不高的。

(2)MapReduce职责过多，须要分解。

Yarn是一个平台，用于处理资源分配和运行任务的。