Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实如今大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。
Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS)
其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总。java
0.x系列版本:hadoop当中最先的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x版本系列:架构产生重大变化,引入了yarn平台等许多新特性node
Hadoop的发行版除了社区的Apache hadoop外,cloudera,IBM,ORACLE等都提供子本身的商业版本。
mysql
http://hadoop.apache.org/
优势:拥有全世界的开源贡献者,代码更新迭代版本比较快,
缺点:版本的升级,版本的维护,版本的兼容性,版本的补丁均可能考虑不太周到,学习能够用,实际生产工做环境尽可能不要使用
apache全部软件的下载地址(包括各类历史版本):
http://archive.apache.org/dist/web
https://hortonworks.com/
hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,而且提供一整套的web管理界面,供咱们能够经过web界面管理咱们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/)算法
https://www.cloudera.com/
cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,经过本身公司内部的各类补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各类问题,生产环境强烈推荐使用sql
Hadoop由 Apache Software Foundation 公司于 2005 年秋天做为Lucene的子项目Nutch的一部分正式引入。它受到最早由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被归入称为 Hadoop 的项目中。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也能够解决许多要求极大伸缩性的问题。例如,若是您要 grep 一个 10TB 的巨型文件,会出现什么状况?在传统的系统上,这将须要很长的时间。可是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,所以能大大提升效率。
狭义上来讲,hadoop就是单独指代hadoop这个软件,广义上来讲,hadoop指代大数据的一个生态圈,包括不少其余的软件。数据库
Hadoop本来来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架能够把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行很是巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop [3] 最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
目前有不少公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合做加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,一样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估的软件。apache
Hadoop目前已经取得了很是突出的成绩。国外如Yahoo、Facebook、Adobe、Ebay以及国内的阿里、腾讯、新浪、美团、百度等互联网公司均采用了hadoop云架构平台。随着互联网的发展,新的业务模式还将不断涌现,Hadoop的应用也会从互联网领域向电信、电子商务、银行、生物制药等领域拓展。编程
core-site.xml:
hdfs-site.xml:
安全