hadoop的优势有哪些？

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。那么你对Hadoop了解多少呢?下面就让小编来给你科普一下什么是hadoop。算法

hadoop的起源编程

项目起源安全

Hadoop由 Apache Software Foundation 公司于 2005 年秋天做为Lucene的子项目Nutch的一部分正式引入。它受到最早由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。网络

2006 年 3 月份，Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被归入称为 Hadoop 的项目中。架构

Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具，但它也能够解决许多要求极大伸缩性的问题。例如，若是您要 grep 一个 10TB 的巨型文件，会出现什么状况?在传统的系统上，这将须要很长的时间。可是 Hadoop 在设计时就考虑到这些问题，采用并行执行机制，所以能大大提升效率。框架

发展历程分布式

Hadoop本来来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架能够把一个应用程序分解为许多并行计算指令，跨大量的计算节点运行很是巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关，迅速发展成为分析大数据的领先平台。函数

目前有不少公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司，该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司，在2012年，该公司与Cloudera合做加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司，一样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。工具

名字起源oop

Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的建立者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。个人命名标准就是简短，容易发音和拼写，没有太多的意义，而且不会被用于别处。小孩子偏偏是这方面的高手。”

hadoop的优势

Hadoop是一个可以对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop 是可靠的，由于它假设计算元素和存储会失败，所以它维护多个工做数据副本，确保可以针对失败的节点从新分布处理。

Hadoop 是高效的，由于它以并行的方式工做，经过并行处理加快处理速度。

Hadoop 仍是可伸缩的，可以处理 PB 级数据。

此外，Hadoop 依赖于社区服务，所以它的成本比较低，任何人均可以使用。

Hadoop是一个可以让用户轻松架构和使用的分布式计算平台。用户能够轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有如下几个优势：

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇能够方便地扩展到数以千计的节点中。

高效性。Hadoop可以在节点之间动态地移动数据，并保证各个节点的动态平衡，所以处理速度很是快。

高容错性。Hadoop可以自动保存数据的多个副本，而且可以自动将失败的任务从新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本所以会大大下降。

Hadoop带有用Java语言编写的框架，所以运行在 Linux 生产平台上是很是理想的。Hadoop 上的应用程序也可使用其余语言编写，好比 C++。

hadoop大数据处理的意义

Hadoop得以在大数据处理应用中普遍应用得益于其自身在数据提取、变形和加载(ETL)方面上的自然优点。Hadoop的分布式架构，将大数据处理引擎尽量的靠近存储，对例如像ETL这样的批处理操做相对合适，由于相似这样操做的批处理结果能够直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，以后再以单个数据集的形式加载(Reduce)到数据仓库里。

hadoop的应用程序

Hadoop 的最多见用法之一是 Web 搜索。虽然它不是惟一的软件框架应用程序，但做为一个并行数据处理引擎，它的表现很是突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程，它受到Google开发的启发。这个流程称为建立索引，它将 Web爬行器检索到的文本 Web 页面做为输入，而且将这些页面上的单词的频率报告做为结果。而后能够在整个 Web 搜索过程当中使用这个结果从已定义的搜索参数中识别内容。

MapReduce

最简单的 MapReduce应用程序至少包含 3 个部分：一个 Map 函数、一个 Reduce 函数和一个 main 函数。main 函数将做业控制和文件输入/输出结合起来。在这点上，Hadoop 提供了大量的接口和抽象类，从而为 Hadoop应用程序开发人员提供许多工具，可用于调试和性能度量等。

MapReduce 自己就是用于并行处理大数据集的软件框架。MapReduce 的根源是函数性编程中的 map 和 reduce 函数。它由两个可能包含有许多实例(许多 Map 和 Reduce)的操做组成。Map 函数接受一组数据并将其转换为一个键/值对列表，输入域中的每一个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，而后根据它们的键(为每一个键生成一个键/值对)缩小键/值对列表。

这里提供一个示例，帮助您理解它。假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出如下的键/值对列表：

(one,1) (small,1) (step,1) (for,1) (man,1)

MapReduce 流程的概念流

(one,1) (giant,1) (leap,1) (for,1) (mankind,1)

若是对这个键/值对列表应用 Reduce 函数，将获得如下一组键/值对：

(one,2) (small,1) (step,1) (for,2) (man,1)(giant,1) (leap,1) (mankind,1)

结果是对输入域中的单词进行计数，这无疑对处理索引十分有用。可是，假设有两个输入域，第一个是 one small step for man，第二个是 one giant leap for mankind。您能够在每一个域上执行 Map 函数和 Reduce 函数，而后将这两个键/值对列表应用到另外一个 Reduce 函数，这时获得与前面同样的结果。换句话说，能够在输入域并行使用相同的操做，获得的结果是同样的，但速度更快。这即是 MapReduce 的威力;它的并行功能可在任意数量的系统上使用。图 2 以区段和迭代的形式演示这种思想。

回到 Hadoop 上，

它是如何实现这个功能的?一个表明客户机在单个主系统上启动的 MapReduce应用程序称为 JobTracker。相似于 NameNode，它是 Hadoop 集群中唯一负责控制 MapReduce应用程序的系统。在应用程序提交以后，将提供包含在 HDFS 中的输入和输出目录。JobTracker 使用文件块信息(物理量和位置)肯定如何建立其余 TaskTracker 从属任务。MapReduce应用程序被复制到每一个出现输入文件块的节点。将为特定节点上的每一个文件块建立一个唯一的从属任务。每一个 TaskTracker 将状态和完成信息报告给 JobTracker。图 3 显示一个示例集群中的工做分布。

Hadoop 的这个特色很是重要，由于它并无将存储移动到某个位置以供处理，而是将处理移动到存储。这经过根据集群中的节点数调节处理，所以支持高效的数据处理。

总之：Hadoop的优势有：

一、hadoop是可伸缩的，能够处理PB级的大数据

二、hadoop是高容错的，hadoop可以自动保存数据到多个副本，从而保证任务失败后将该任务进行从新分配

三、hadoop是高效的，可以将数据在不一样节点之间进行分配和运行，保证各个节点上数据的动态平衡，所以处理速度很是快。

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇能够方便地扩展到数以千计的节点中。

高效性。Hadoop可以在节点之间动态地移动数据，并保证各个节点的动态平衡，所以处理速度很是快。

高容错性。Hadoop可以自动保存数据的多个副本，而且可以自动将失败的任务从新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本所以会大大下降。