(1)Hadoop具备按位存储和处理数据能力的高可靠性。框架
(2)Hadoop经过可用的计算机集群分配数据,完成存储和计算任务,这些集群能够方便地扩展到数以千计的节点中,具备高扩展性。分布式
(3)Hadoop可以在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度很是快,具备高效性。工具
(4)Hadoop可以自动保存数据的多个副本,而且可以自动将失败的任务从新分配,具备高容错性。oop
(1)Hadoop不适用于低延迟数据访问。学习
(2)Hadoop不能高效存储大量小文件。开发工具
(3)Hadoop不支持多用户写入并任意修改文件。大数据
Hadoop的核心组件blog
Hadoop自诞生以来,主要出现了Hadoop一、Hadoop二、Hadoop3三个系列多个版本。教程
HDFS和MapReduce是Hadoop1的核心组件,Hadoop生态圈里的不少组件都是基于HDFS和MapReduce发展出来的。在继Hadoop1以后出现了Hadoop2,Hadoop2在Hadoop1的基础上作了改进。相比Hadoop1,Hadoop2的三大核心组件分别是HDFS、MapReduce、Yarn。目前市面上绝大部分企业使用的是Hadoop2,本书使用的是Hadoop2.7.3这一版本。资源
Hadoop2的一个公共模块和三大核心组件组成了四个模块,简介以下。
(1)HadoopCommon:为其余Hadoop模块提供基础设施。
(2)HDFS:具备高可靠性、高吞吐量的分布式文件系统。
(3)MapReduce:基于Yarn系统,分布式离线并行计算框架。
(4)Yarn:负责做业调度与集群资源管理的框架。
在学习大数据的过程中有碰见任何问题,能够加入个人Java/大数据交流学习扣扣qun:732308174,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习大数据有任何问题(学习方法,学习效率,如何就业),能够随时来咨询我!