hadoop的优势有哪些?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。那么你对Hadoop了解多少呢?下面就让小编来给你科普一下什么是hadoop。算法

hadoop的起源编程

项目起源安全

Hadoop由 Apache Software Foundation 公司于 2005 年秋天做为Lucene的子项目Nutch的一部分正式引入。它受到最早由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。网络

2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被归入称为 Hadoop 的项目中。架构

Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也能够解决许多要求极大伸缩性的问题。例如,若是您要 grep 一个 10TB 的巨型文件,会出现什么状况?在传统的系统上,这将须要很长的时间。可是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,所以能大大提升效率。框架

发展历程分布式

Hadoop本来来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架能够把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行很是巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。函数

目前有不少公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合做加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,一样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。工具

名字起源oop

Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的建立者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。个人命名标准就是简短,容易发音和拼写,没有太多的意义,而且不会被用于别处。小孩子偏偏是这方面的高手。”

hadoop的优势

Hadoop是一个可以对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的,由于它假设计算元素和存储会失败,所以它维护多个工做数据副本,确保可以针对失败的节点从新分布处理。

Hadoop 是高效的,由于它以并行的方式工做,经过并行处理加快处理速度。

Hadoop 仍是可伸缩的,可以处理 PB 级数据。

此外,Hadoop 依赖于社区服务,所以它的成本比较低,任何人均可以使用。

Hadoop是一个可以让用户轻松架构和使用的分布式计算平台。用户能够轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有如下几个优势:

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇能够方便地扩展到数以千计的节点中。

高效性。Hadoop可以在节点之间动态地移动数据,并保证各个节点的动态平衡,所以处理速度很是快。

高容错性。Hadoop可以自动保存数据的多个副本,而且可以自动将失败的任务从新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本所以会大大下降。

Hadoop带有用Java语言编写的框架,所以运行在 Linux 生产平台上是很是理想的。Hadoop 上的应用程序也可使用其余语言编写,好比 C++。

hadoop大数据处理的意义

Hadoop得以在大数据处理应用中普遍应用得益于其自身在数据提取、变形和加载(ETL)方面上的自然优点。Hadoop的分布式架构,将大数据处理引擎尽量的靠近存储,对例如像ETL这样的批处理操做相对合适,由于相似这样操做的批处理结果能够直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,以后再以单个数据集的形式加载(Reduce)到数据仓库里。

hadoop的应用程序

Hadoop 的最多见用法之一是 Web 搜索。虽然它不是惟一的软件框架应用程序,但做为一个并行数据处理引擎,它的表现很是突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程,它受到Google开发的启发。这个流程称为建立索引,它将 Web爬行器检索到的文本 Web 页面做为输入,而且将这些页面上的单词的频率报告做为结果。而后能够在整个 Web 搜索过程当中使用这个结果从已定义的搜索参数中识别内容。

MapReduce

最简单的 MapReduce应用程序至少包含 3 个部分:一个 Map 函数、一个 Reduce 函数和一个 main 函数。main 函数将做业控制和文件输入/输出结合起来。在这点上,Hadoop 提供了大量的接口和抽象类,从而为 Hadoop应用程序开发人员提供许多工具,可用于调试和性能度量等。

MapReduce 自己就是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许多实例(许多 Map 和 Reduce)的操做组成。Map 函数接受一组数据并将其转换为一个键/值对列表,输入域中的每一个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表,而后根据它们的键(为每一个键生成一个键/值对)缩小键/值对列表。

这里提供一个示例,帮助您理解它。假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出如下的键/值对列表:

(one,1) (small,1) (step,1) (for,1) (man,1)

MapReduce 流程的概念流

MapReduce 流程的概念流

(one,1) (giant,1) (leap,1) (for,1) (mankind,1)

若是对这个键/值对列表应用 Reduce 函数,将获得如下一组键/值对:

(one,2) (small,1) (step,1) (for,2) (man,1)(giant,1) (leap,1) (mankind,1)

结果是对输入域中的单词进行计数,这无疑对处理索引十分有用。可是,假设有两个输入域,第一个是 one small step for man,第二个是 one giant leap for mankind。您能够在每一个域上执行 Map 函数和 Reduce 函数,而后将这两个键/值对列表应用到另外一个 Reduce 函数,这时获得与前面同样的结果。换句话说,能够在输入域并行使用相同的操做,获得的结果是同样的,但速度更快。这即是 MapReduce 的威力;它的并行功能可在任意数量的系统上使用。图 2 以区段和迭代的形式演示这种思想。

回到 Hadoop 上,

它是如何实现这个功能的?一个表明客户机在单个主系统上启动的 MapReduce应用程序称为 JobTracker。相似于 NameNode,它是 Hadoop 集群中唯一负责控制 MapReduce应用程序的系统。在应用程序提交以后,将提供包含在 HDFS 中的输入和输出目录。JobTracker 使用文件块信息(物理量和位置)肯定如何建立其余 TaskTracker 从属任务。MapReduce应用程序被复制到每一个出现输入文件块的节点。将为特定节点上的每一个文件块建立一个唯一的从属任务。每一个 TaskTracker 将状态和完成信息报告给 JobTracker。图 3 显示一个示例集群中的工做分布。

Hadoop 的这个特色很是重要,由于它并无将存储移动到某个位置以供处理,而是将处理移动到存储。这经过根据集群中的节点数调节处理,所以支持高效的数据处理。

总之:Hadoop的优势有:

一、hadoop是可伸缩的,能够处理PB级的大数据

二、hadoop是高容错的,hadoop可以自动保存数据到多个副本,从而保证任务失败后将该任务进行从新分配

三、hadoop是高效的,可以将数据在不一样节点之间进行分配和运行,保证各个节点上数据的动态平衡,所以处理速度很是快。

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇能够方便地扩展到数以千计的节点中。

高效性。Hadoop可以在节点之间动态地移动数据,并保证各个节点的动态平衡,所以处理速度很是快。

高容错性。Hadoop可以自动保存数据的多个副本,而且可以自动将失败的任务从新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本所以会大大下降。