刚开始学习Hadoop时就曾经一直抱怨Hadoop的安装部署为何这么麻烦,对于一个新手须要捯饬一天才能把分布式环境安装配置好。而对于一个自学Hadoop而周围又没人交流的菜鸟来讲,我对Hadoop的理解一直停留在很肤浅的层面,能应用,但对内部的原理知之甚少。最近和一个作这方面的朋友聊天,他问我你学习Hadoop是用的什么版本搭建环境,我说Hadoop版本那么多我也记不太清了,他只是笑笑就没再多问。apache
回来后我又仔细想了想他问的话,不会是问的别的意思吧,难道Hadoop不是只分1.0.x和2.x这些杂七杂八的版本?上网一搜才感受这下丢人丢大发了,原来Hadoop除了Apache这个版本,还有这么多第三方的版本,并且已经很好地解决了Hadoop部署管理复杂的问题。因此在此记录一下,也给新人提个醒。安全
目前Hadoop的发行版除了Apache的开源版本以外,还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,全部这些发行版均是基于Apache Hadoop衍生出来的,由于Apache Hadoop的开源协议容许任何人对其进行修改并做为开源或者商业产品发布。运维
国内大多数公司发行版是收费的,好比Intel发行版、华为发行版等。不收费的Hadoop版本主要有国外的四个,分别是Apache基金会hadoop、Cloudera版本(CDH)、Hortonworks版本(HDP)、MapR版本。分布式
优势:工具
缺点:oop
优势:学习
缺点:测试
综上所述,考虑到大数据平台高效的部署和安装,中心化的配置管理,使用过程当中的稳定性、兼容性、扩展性,以及将来较为简单、高效的运维,遇到问题低廉的解决成本。
建议使用第三方发行版本。
其中在第三发发行版中,国内应用较多的是Cloudera的CDH。你们也能够详细对比优缺点,根据本身的须要作选择。大数据