目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。html
手工部署呢,需配置太多参数,可是,好理解其原理,建议初学这样作,能学到不少。该方式啊,均得由用户执行,细节太多,切当设计多个组件时,用户须本身解决组件间版本兼容问题。apache
工具部署呢,好比Ambari或Cloudera Manger。(当前两大最主流的集群管理工具,前者是Hortonworks公司,后者是Cloudera公司)使用工具来,能够说是一键操做,难点都在工具Ambari或Cloudera Manger自己部署上。安全
手工方式 工具方式网络
难易度 难,几乎不可能成功 简单,易行架构
兼容性 本身解决组件兼容性问题 自动安装兼容组件框架
组件支持数 支持所有组件 支持经常使用组件运维
优势 对组件和集群管理深入 简单、容易、可行分布式
缺点 太复杂,不可能成功 屏蔽太多细节,妨碍对组件理解工具
工具名 所属机构 开源性 社区支持性 易用性、稳定性 市场占有率oop
Cloudera Manger Cloudera 商用 不支持 易用、稳定 高
Ambari Hortonwork 开源 支持 较易用、较稳定 较高
常见的状况是,Cloudera Manger 去部署CDH
Ambari去部署HDP,
固然,二者也能够互相,也能够去部署Apache Hadoop
Cloudera Manager安装之利用parcels方式安装3节点集群(包含最新稳定版本或指定版本的安装)(添加服务)
Hadoop在大数据领域的应用前景很大,不过由于是开源技术,实际应用过程当中存在不少问题。因而出现了各类Hadoop发行版,国外目前主要是三家创业公司在作这项业务:Cloudera、Hortonworks和MapR
Cloudera和MapR的发行版是收费的,他们基于开源技术,提升稳定性,同时强化了一些功能,定制化程度较高,核心技术是不公开的,营收主要来自软件收入。
这类公司,若是一直保持技术领先性,那么软件收入溢价空间很大。但一旦技术落后于开源社区,整个产品须要进行较大调整。
Hortonworks则走向另外一条路,他们将核心技术彻底公开,用于推进Hadoop社区的发展。这样作的好处是,若是开源技术有很大提高,他们受益最大,由于定制化程度较少,自身不会受到技术提高的冲击。
cdh
(1)CDH3版本是基于Apache hadoop 0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提前发布,更新速度比Apache官方快。
(2)安全CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证
(3)CDH文档清晰,不少采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。
(4)CDH支持Yum/Apt包,Tar包,RPM
包,Cloudera Manager四种方式安装,Apache hadoop
只支持Tar包安装。
一、联网安装、升级,很是方便
二、自动下载依赖软件包
三、Hadoop生态系统包自动匹配,不须要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
四、自动建立相关目录并软链到合适的地方(如conf和logs等目录);自动建立hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程当中相关目录的权限。
hortonworks
Hortonworks这个名字源自儿童书中一只叫Horton的大象。雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks。
Hortonworks有两款核心产品:HDP和HDF
Hortonworks没有对产品收费,而是将这两款产品彻底开放,将核心技术放在Hadoop开源社区中,每一个人均可以看到并使用这两款产品
企业客户本身开发难度较大的话,就会选择合做。这就是Hortonworks的盈利模式,经过提供支持服务和后期维护,向企业级客户收费。
支持服务主要是经过订阅的方式,客户须要就某些功能预约一年或者几年的服务,提早付费。支持服务覆盖整个周期,从最初的开发和POC阶段,到中间的质量测试,直至产品交付。维护服务主要是对企业级客户的培训和一些咨询业务。
mapr
Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,而且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。所以很是容易替换原有的系统。
原文:https://www.dezyre.com/article/cloudera-vs-hortonworks-vs-mapr-hadoop-distribution-comparison-/190
对于企业而言,无论过去是否曾使用过Hadoop,正确选择Hadoop商业发行版都很重要。当企业准备投入巨大的财力在Hadoop平台的硬件和解决方案上时,选择某个商业版的Hadoop系统就变得特别重要了。根据业务须要选择正确的Hadoop商业发行版能够带来更多的数据解决方案而且能够得到业界专业人士的承认。这篇文章将从成本、技术细节、部署和维护等几个方面比较Cloudera、Hortonworks和MapR发布的Hadoop版本。
Hadoop 是一个开源项目,前后有许多公司在其框架基础上进行了加强而且发布了商业版本。Hadoop项目的最大诱惑在于使用者能够根据自身的业务须要定制差别化的功能。在Apache开源社区,Hadoop把全部的相关项目组成一个完整的生态系统,用户几乎不费吹灰之力就能够经过搭配一些组件来实现一个完整功能。
哪些人须要Hadoop分布式系统?
l 须要学习和临时使用Hadoop的各行业专业人士
l 须要在大数据的背景下推动业务解决方案演进的各种机构
l 须要在Hadoop生态系统中开发新工具的人员
商业版本的Hadoop有哪些改进?
Hadoop商业发行版的提供者们经过优化核心代码、加强易用性、提供技术支持和持续版本升级为Hadoop平台实现了许多新功能。市场上受承认的Hadoop商业发行版的提供者主要有Cloudera,MapR和Hortonworks。 他们发行的Hadoop商业版本都能与Apache社区开源版本兼容,但它们之间有哪些区别呢?
l 框架核心:Cloudera,MapR和Hortonworks这三家公司都把Hadoop核心框架打包到了他们的商业版本中;在这基础上,他们都提供了技术支持服务和定制化开发服务。
l 系统集成:MapR 的商业版Hadoop可靠地支持一系列功能,包括:实时流数据处理,与已有系统集成的内嵌的链接器,数据安全保护,企业级工程品质。
l 系统管控:Cloudera和MapR 商业发行版中都包含了为系统管理员提供了配置、监控和优化的管控平台。
Cloudera,Hortonworks和MapR异同之处分析
版本 |
优势 |
缺点 |
CDH |
CDH有一个友好的用户界面及一些实用的工具,好比:Impala |
CDH相对MapR Hadoop来讲,运行效率显著下降 |
MapR Hadoop |
运行效率高;节点之间能够经过NFS直接访问 |
MapR Hadoop没有像CDH那样的用户界面 |
HDP |
惟一一个能运行在Windows上的Haoop系统 |
Ambari管控界面功能比较简单,不够丰富 |
类似性:
l Cloudera, Hortonworks 和MapR三家公司都专一于Hadoop平台开发,商业版本的Hadoop系统是他们的所有收入来源。
l 这三家公司都是中等规模的公司,都拥有一些优质客户和来自其余行业的投资伙伴。
l 这三家公司都提供了免费版本的下载,不一样的是,MapR和Cloudera 还为付费客户提供功能加强版本。
l 这三家公司都创建了技术支持社区帮助用户解决遇到的问题以及在用户须要时提供系统演示。
l 这三家公司都经过测试保证发行版本知足用户业务对稳定性和安全性需求。
下面咱们会在对比每个商业版本功能的基础上分析其差别性:
Cloudera — CDH
Cloudera 是Hadoop领域知名的公司和市场领导者,提供了市场上第一个Hadoop商业发行版本。它拥有350多个客户而且活跃于Hadoop生态系统开源社区。在多个创新工具的贡献着排行榜中,它都名列榜首。它的系统管控平台——Cloudera Manager,易于使用、界面清晰,拥有丰富的信息内容。Cloudera 专属的集群管控套件能自动化安装部署集群而且提供了许多有用的功能,好比:实时显示节点个数,缩短部署时间等。同时,Cloudera 也提供咨询服务来解决各种机构关于在数据管理方案中如何使用Hadoop技术以及开源社区有哪些新内容等疑虑。美国电商“高朋”公司是CDH的用户。
CDH的主要特性:
l 在线不停机添加新组件
l 多集群统一管理
l 提供差别化配置的节点模板。用户没必要使用单一配置的Hadoop集群,能够依此建立差别化配置的集群。
l Hortonworks 和Cloudera都依赖于HDFS的DataNode 和NameNode架构来作数据切分。
MapR — Hadoop
MapR的Hadoop商业发行版紧盯市场需求,能更快反应市场须要。一些行业巨头如思科、埃森哲、波音、谷歌、亚马逊都是MapR的Hadoop的用户。与Cloudera和Hortonworks不一样的是, MapR Hadoop不依赖于Linux文件系统,也不依赖于HDFS,而是在MapRFS文件系统上把元数据保存在计算节点,快速进行数据的存储和处理。
MapR Hadoop的主要特性:
l 因为它基于MapRFS,它是惟一一个能不依赖于Java而提供Pig,Hive和Sqoop的Hadoop。
l MapR Hadoop是最适合应用于生产环境的Hadoop版本,它包含了许多易用性、高效和可信赖的加强功能。
l MapR Hadoop集群节点能够经过NFS直接访问,所以用户能够像使用Linux文件系统同样在NFS上直接挂载MapR文件。
l MapR Hadoop提供了完整的数据保护,方便使用而且没有单点故障。
l MapR Hadoop被认为是运行最快的Hadoop版本。
尽管从集群规模来讲,MapR Hadoop还不如Hortonworks 和Cloudera,只能暂列第三,但相对其它版本的Hadoop来讲,它易用性最强,运行最快。所以,若是用户想选择带有足够创意和学习资料的Hadoop,那么MapR Hadoop将是不二之选。
Hortonworks — HDP
Hortonworks是由一些雅虎的工程师创立的公司,提供针对Hadoop的技术服务。与其它公司不一样的是,它提供彻底开源的Hadoop数据平台而且用户能够无偿使用。用户能够很方便得下载Hortonworks 的Hadoop发行版HDP并把它集成到各类应用中。Ebay、三星、彭博、Spotify 都是HDP的用户。Hortonworks 也是第一个基于Hadoop 2.0提供知足生产环境须要的Hadoop版本。尽管CDH在其早期的版本中包含了Hadoop 2.0的部分功能,但这些功能没法知足生产环境须要。HDP 也是目前惟一能支持Windows的Hadoop版本。用户能够在Azure 上经过HDInsight 服务部署Windows上的 Hadoop。
HDP的主要特性:
l HDP 经过Stinger项目提高了Hive的性能
l HDP 经过新的Hadoop分支来避免用户被厂商绑定
l 聚焦于提高Hadoop平台的实用性
经过对Hadoop市场上的这三家公司的产品战略和功能分析后,咱们很难简单说谁更胜一筹。各种机构须要根据自身业务程度须要来选择Hadoop商业版本。回答下面这些问题能够帮助用户作出选择:
1. 是否会使系统管理员工做更加高效?
2. 是否便于Hadoop开发人员和业务分析人员访问数据?
3. 是否知足机构内部关于数据安全的规章制度要求?
4. 是否适合机构内部的系统运行环境?
5. 是否须要Hadoop提供的全部组件和能力?
6. 是否须要大数据的总体解决方案来支撑业务盈利?以及是否须要紧跟开源以减小被厂商绑定?
7. 系统可靠性、技术支持、扩展功能等是否很是重要?
用户若是指望获得一个像样的产品,那选择MapR Hadoop比较适合;若是须要紧跟开源,那么就应该选择Hortonworks;若是用户的业务需求须要介于两者之间,那么Cloudera 就是个不错的选择了。
如何选择Hadoop发行版彻底取决于用户在实施Hadoop平台中遇到了什么样的困难。Hadoop商业发行版能够帮助用户把Hadoop平台和其余异构数据分析平台灵活、可靠、可视化地链接起来。每一个Hadoop发行版都有其各自的优势和缺点。在选择时,不只要平衡风险和成本,也要考虑各类发行版的附加功能是否符合实际业务场景须要。
一、Hadoop版本综述
目前Hadoop发行版很是多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,全部这些发行版均是基于Apache Hadoop衍生出来的,之因此有这么多的版本,彻底是由Apache Hadoop的开源协议决定的:任何人能够对其进行修改,并做为开源或商业产品发布/销售。(http://www.apache.org/licenses/LICENSE-2.0)。
国内绝大多数公司发行版是收费的,好比Intel发行版、华为发行版等,尽管这些发行版增长了不少开源版本没有的新feature,但绝大多数公司选择Hadoop版本时会将把是否收费做为重要指标,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、
Apache基金会hadoop、
Hortonworks版本(Hortonworks Data Platform,简称“HDP”)--------按顺序表明了,在国内的使用率,CDH和HDP虽然是收费版本,可是他们是开源的,只是收取服务费用。
对于国内而言,绝大多数选择CDH版本,主要理由以下:
(1) CDH对Hadoop版本的划分很是清晰,只有两个系列的版本(如今已经更新到CDH5.20了,基于hadoop2.x),分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;
(2) CDH文档清晰,不少采用Apache版本的用户都会阅读cdh提供的文档,包括安装文档、升级文档等。
CDH与Apache版本的对应:
cdh3版本是基于apache hadoop 0.20.2
cdh3u6对应到apache hadoop最新版本(Hadoop 1.x)
cdh4对应apache hadoop 2.x
HDP版本是比较新的版本,目前与apache基本同步,由于Hortonworks内部大部分员工都是apache代码贡献者,尤为是Hadoop 2.0的贡献者。
2、社区版本与第三方发行版本的比较
1.Apache社区版本
优势:
彻底开源免费。
社区活跃
文档、资料详实
缺点:
----复杂的版本管理。版本管理比较混乱的,各类版本层出不穷,让不少使用者不知所措。
----复杂的集群部署、安装、配置。一般按照集群须要编写大量的配置文件,分发到每一台节点上,容易出错,效率低下。
----复杂的集群运维。对集群的监控,运维,须要安装第三方的其余软件,如ganglia,nagois等,运维难度较大。
----复杂的生态环境。在Hadoop生态圈中,组件的选择、使用,好比Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,须要大量考虑兼容性的问题,版本是否兼容,组件是否有冲突,编译是否能经过等。常常会浪费大量的时间去编译组件,解决版本冲突问题。
2.第三方发行版本(如CDH,HDP,MapR等)
优势:
----基于Apache协议,100%开源。
----版本管理清晰。好比Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。
----比Apache Hadoop在兼容性、安全性、稳定性上有加强。第三方发行版一般都通过了大量的测试验证,有众多部署实例,大量的运行到各类生产环境。
----版本更新快。一般状况,好比CDH每一个季度会有一个update,每年会有一个release。
----基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch
----提供了部署、安装、配置工具,大大提升了集群部署的效率,能够在几个小时内部署好集群。
----运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工做简单,有效。
缺点:
----涉及到厂商锁定的问题。(能够经过技术解决)
3、第三方发行版本的比较
Cloudera:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。
Hortonworks:不拥有任何私有(非开源)修改地使用了100%开源Apache Hadoop的惟一提供商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。而且,它们的Stinger开创性地极大地优化了Hive项目。Hortonworks为入门提供了一个很是好的,易于使用的沙盒。Hortonworks开发了不少加强特性并提交至核心主干,这使得Apache Hadoop可以在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行。
MapR:与竞争者相比,它使用了一些不一样的概念,特别是为了获取更好的性能和易用性而支持本地Unix文件系统而不是HDFS(使用非开源的组件)。可使用本地Unix命令来代替Hadoop命令。除此以外,MapR还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其余竞争者相区别。该公司也领导着Apache Drill项目,本项目是Google的Dremel的开源项目的从新实现,目的是在Hadoop数据上执行相似SQL的查询以提供实时处理。
4、版本选择
当咱们决定是否采用某个软件用于开源环境时,一般须要考虑如下几个因素:
(1)是否为开源软件,便是否免费。
(2) 是否有稳定版,这个通常软件官方网站会给出说明。
(3) 是否经实践验证,这个可经过检查是否有一些大点的公司已经在生产环境中使用知道。
(4) 是否有强大的社区支持,当出现一个问题时,可以经过社区、论坛等网络资源快速获取解决方法。
题外篇:
市场,场景,策略及上市的步调不一样
三家马车中,Hortonwork和Cloudera前后上市,MapR也加快了上市步伐。
2014年,Hortonworks成功IPO在纳斯达克上市。该公司以每股16美圆的价格发行625万股股票,募集1亿美圆资金,开盘首日上涨幅度达到60%,市值接近11亿美圆。
2017年4月底,Cloudera以每股15美圆的订价在纽约证券交易所上市,股价一日上涨超20%至18.09美圆。这一价格也超出了此前公司12到14美圆的预期范围。Cloudera目前市值约为23亿美圆,远低于2014年英特尔给出的41亿美圆估值。
MapR于2009年成立,曾在五轮风险投资里拿到1.14亿美圆。公司的风投支持者一般但愿看到两个结果,其一是上市,另外一个是被收购。可是媒体2017年6月报道,公司MapR的首席执行官米尔斯说不肯说上市的日期,但表示上市已提到议事日程上。米尔斯表示,“我想上市,但我也想尊重上市的步骤。”
赢利仍是亏损
三大公司的营收状况怎么样?这能够说是Hadoop 商业化世界的一个风向标。
Hortonworks于2017年5月公布的消息现实,公司2017年第一季度收入5600万美圆,同比增加35%,利润率更高,经营亏损收窄。可是目前依然是亏损。
Cloudera的收入正在增加,截止到1月份的上一财年营收达到2.61亿美圆,亏损为1.86亿美圆;2015财年营收为1.66亿美圆,亏损2.03亿美圆。Cloudera的多数营收都来自订阅收入,订阅期一般为1至3年,但他们还经过服务获取营收,包括专业服务、培训和教育等。
MapR公司的CEO米尔斯认为,MapR的销售额在不断增加,平均交易规模大于10万美圆,但他不肯评论成本或亏损。
商业模式
一样基于开源的Hadoop,可是三大公司所采用的商业模式却各有不一样。
Cloudera采用发布Hadoop商业版和发布商用工具的模式。所谓的Hadoop发行商,有点相似于Linux世界里的RedHat。公司经过开源软件的包装,整合稳定的版本造成一个套餐。经过让企业用户购买套餐来实现盈利。因此,Cloudera给全部使用了其Hadoop的套餐的用户提供收费技术支持。
同时,Cloudera也提供免费的版,用户能够在网站上随便下载无偿使用的。可是Cloudera同时又提供如Cloudera Manager的企业管理组件,在最初三个月试用以后就要收费的。
MapR走的和Cloudera相似的商业模式,可是它是以发布商业化工具产品为主,同时提供发行版。
Hortonworks提供的软件都是100%开源免费下载,将核心技术放在Hadoop开源社区中,每一个人均可以看到并使用。对于企业客户来讲有了源代码,如何与本身系统相结合、加强功能、调试故障、对接应用等都是问题。企业客户若是想用这项技术,本身开发难度较大的话,就会选择合做。这就是Hortonworks的盈利模式,经过提供支持服务和后期维护,向企业级客户收费。
支持服务主要是经过订阅的方式,客户须要就某些功能预约一年或者几年的服务,提早付费。支持服务覆盖整个周期,从最初的开发和POC阶段,到中间的质量测试,直至产品交付。维护服务主要是对企业级客户的培训和一些咨询业务。