1、Hadoop是什么?多线程
首次听到hadoop此次单词,相信不少人跟我当时是同样,难免心中画上一个大大的问号——这是什么东西?Hadoop是什么?百度百科的解释是:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。换句话说就是hadoop是一个可以对大量数据进行分布式处理的软件框架。架构
Hadoopd之所谓会诞生,主要是因为进入到大数据时代,计算机须要处理的数据量太过庞大。这时就须要将这些庞大数据切割分配到N台计算机进行处理。当大量信息被分配到不一样计算机进行处理时,要确保最终获得的结果正确就须要对这些分布处理的信息进行管理,hadoop就是这样的一套解决方案。框架
经过一个简单通俗的例子说明:假如说你有一个篮子水果,你想知道苹果和梨的数量是多少,那么只要一个一个数就能够知道有多少了。若是你有一个集装箱水果,这时候就须要不少人同时帮你数了,这至关于多进程或多线程。若是你不少个集装箱的水果,这时就须要分布式计算了,也就是Hadoop。分布式
2、hadoop的版本工具
随着这几年大数据浪潮的兴起,hadoop的各类版本也快速在国内流传和使用。当前主要的hadoop版本有如下几种:oop
一、Apache hadoop 的2.0版本,它的模块主要有如下几个:性能
(1)hadoop通用模块,支持其余hadoop模块的通用工具集;大数据
(2)Hadoop分布式文件系统,支持对应数据高吞吐量访问的分布式文件系统;优化
(3)用于做业调度和集群资源管理的Hadoop YANRN框架;操作系统
(4)Hadoop MapReduce,基于YARN的大数据并行处理系统。
二、Cloudera hadoop:Cloudera版本层次更加清晰,且它提供了适用于各类操做系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。
三、Hortonworks:Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也一样是100%开源的产品,HDP除了常见的项目外还包含了Ambari,一款开源的安装和管理系统。HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook 开源的Hive中。Hortonworks的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个很是好的,易于使用的沙盒。Hortonworks开发了不少加强特性并提交至核心主干,这使得Apache Hadoop可以在包括Windows Server和Windows Azure在内的Microsoft Windows平台上本地运行。
3、国产hadoop发行版有哪些
国内作hadoop发行版的像华为、大快搜索都有推出本身的发行版。华为在硬件上有自然的有事,华为的FusionInsight Hadoop版本基于Apache Hadoop,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对Hadoop的小修补,远不如MapR解决的完全。
大快搜索推出的DKhaoop, 是目前已知的国产发行版中惟一一个纯原生态的开发,集成了整个HADOOP生态系统的所有组件,并深度优化,从新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。所以DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提高。