HDFS+MapReduce。共同点都是分布式的,主从关系结构。分布式
HDFS是包括主节点NameNode,只有一个;还有从节点DataNode,有不少个。ide
NameNode含有咱们用户存储的文件的元数据信息。把这些数据存放在硬盘上,可是在运行时是加载在内存中的。spa
缺点:(1)当咱们的NameNode没法在内存中加载所有元数据信息的时候,集群的寿命到头了。设计
(2)权限设计是不够完全的blog
(3)大量小文件的存储的话,会形成NameNode的内存压力骤增。内存
改进:(1)2个NameNode一块儿共存,组成hdfs federation。资源
(2)HA 自动、手工 get
MapReduce包括主节点JobTracker,只有一个;还有从节点TaskTracker,有不少个。it
JobTracker主要的工做是管理用户提交的做业和分配资源。io
缺点:(1)对于实时性做业和批处理做业,须要搭建不一样的集群环境,每一个集群的资源利用率是不高的。
(2)MapReduce职责过多,须要分解。
Yarn是一个平台,用于处理资源分配和运行任务的。