通过几年的工做,最近有时间,将本身的知识体系整合一下,发到博客中,共你们学习交流参考,若有错误请及时批评斧正,万分感谢。html
首先我会介绍Hadoop生态圈的相关技术,后期放上来的文章我都会在这里作个连接,共你们方便查看。apache
Hadoop是Apache提供的开源的海量数据离线处理框架,是最知名的大数据框架之一。架构
最初来源于Google的三篇论文,由Apache基于论文中的原理进行了开源的实现。框架
Google的集群系统:GFS、MapReduce、BigTable。分布式
Hadoop的集群系统:HDFS、MapReduce、HBase。工具
其中HDFS和MapReduce组成了Hadoop,并后续在Hadoop2.0中引入了Yarn。因此目前的Hadoop由以下三个组件组成:oop
HDFS:Hadoop分布式文件存储系统。性能
MapReduce:Hadoop分布式数据计算框架。学习
Yarn:Hadoop分布式资源协调工具。测试
Hadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求,能够解决大数据场景下的数据存储和处理的问题。
Doug Cutting如此解释Hadoop的得名:“这个名字是我孩子给一头吃饱了的棕黄色大象命名的。个人命名标准就是简短,容易发音和拼写,没有太多的意义,而且不会被用于别处。小孩子是这方面的高手。Google就是由小孩命名的。”
Hadoop工做须要JDK的支持,请注意下载时对JDK的版本要求。
Hadoop下载地址:http://hadoop.apache.org/releases.html
Hadoop历史版本下载地址:https://archive.apache.org/dist/hadoop/common/
Apache Hadoop版本分为三代,咱们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0,而且两个版本互不兼容。第三代Hadoop称为Hadoop3.0。
第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版。而0.21.x和0.22.x则有NameNode HA等新的重大特性。
第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们彻底不一样于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x、2.x增长了NameNode HA和Wire-compatibility两个重大特性。
第三代Hadoop称为Hadoop3.0,在2017年9月份释出的。
Hadoop的安装分为单机方式、伪分布式方式和彻底分布式方式。
单机模式是Hadoop的默认模式。解压便可使用单机模式。
单机模式不启动任何守护进程、没法使用hdfs和yarn,只能用来进行MapReduce的本地测试、不能用做生产环境。
单机环境下启动全部的守护进程,具备hadoop的完整功能,可使用hdfs,mapreudce和yarn,可是这些守护进程都运行在同一台机器上,并不能真正的提供性能上的提高,只能用来开发测试,不能够用在生产环境下。
以上是官方的说法,这里须要说一下,伪分布式也是能够用到生产环境的,在数据量不是很大,数据可靠性要求不是很强的时候,可使用伪分布式,要不彻底分布式的计算速度要快!
启动全部的守护进程,具备hadoop完整的功能,可使用hdfs、mapreduce和yarn,而且这些守护进程运行在集群中,能够真正的利用集群提供高性能,在生产环境下使用。
解压直接运行,就是单机模式。
参看:hadoop伪分布式安装配置。
参看:Hadoop彻底分布式配置。
下一篇:Hadoop伪分布式模式搭建