Hadoop的过去、如今和将来

Hadoop是目前大数据分析领域中应用最普遍的一种分布式架构,而通过至关长时间的发展,Hadoop在功能上也愈来愈成熟。不过,在这个星球上,你找不到拥有11年Hadoop经验的人。由于目前在Hadoop领域经验最丰富的人是Doug Cutting,他在Hadoop方面拥有的经验是10年零7个月。而这位Doug Cutting正是Hadoop之父,Cloudera公司首席架构师。
做为处理海量数据最经常使用的方法,Hadoop的核心是Map和Reduce,也就是将一个庞大的任务进行分解,而后再将结果进行汇总。但通过10年发展,Hadoop的功能早已不是MapReduce这么简单。今天的Hadoop是分布式计算所涉及的计算、存储、文件系统、网络、安全、负载均衡、管理等一系列软件方法的合集。也正是因为其完整性和成熟度,今天的Hadoop虽然面临Spark等新兴技术的竞争,却还是分布式计算领域不可或缺的基础和前提。
做为一个开源项目,Hadoop目前仍在告诉发展、快速更新;做为开源软件服务的成功践行者,Cloudera的Hadoop发行版本正在成为愈来愈多企业在部署分布式计算系统时的首选。
开源与商业,过去和将来;身为Hadoop之父、Cloudera公司首席架构师、Apache基金会前主席,Doug Cutting确实有话要说。
Hadoop成功的基础
Hadoop无疑是Apache基金会中最引人注目和最庞大的顶级项目之一。因为Hadoop定义了分布式计算的方方面面,所以平常的代码提交量也很是巨大。而在海量的代码见决定Hadoop将来走向的则是一个接近百人的评审委员会。
Doug Cutting表示:评审委员会的成员来自各个领域,他们有IT企业中的技术达人、有相关学科的大学教授、有应用专家、更有单纯的技术爱好者。而在这个庞大的评审委员会中,全部成员均拥有“一票否决权”。虽然委员们各自有不一样的背景甚至公司利益,但在委员会中,全部人的投票都是至关慎重的。投票所考虑的核心因素只有一个,那就是Hadoop将来的发展。而任何否决票的出现也必须给出技术上的合理解释。
能够说,Hadoop与Apache基金会的其余项目同样,是一个“人人为我、我为人人”的开放环境。
因为有愈来愈多Cloudera这样的开源企业源源不断的将本身的创新和Debug回馈给整个社区以及优秀的委员会机制,Hadoop在今天仍保持着至关旺盛的生命力。
总结Hadoop过去的成功无非两点:一是从技术上开创了分布式计算时代,二是Apache基金会和Hadoop项目开放、合做、共享的管理理念。
Hadoop如何保持成功
任何一项技术都有其自身的发展路径。而做为一项很是有潜力的技术,Hadoop的将来发展的根基仍然要依靠普遍的应用基础。
Cloudera是目前众多Hadoop发行版中最流行的一个,而Cloudera回馈社区的方式也并不仅是简单的贡献代码。
日前,Cloudera与清华大学联合发布BASE (Big Analytics Skill Enablement)倡议,旨在帮助清华大学数据科学研究院培养更多大数据分析专业人才,以填补国内大数据领域人才匮乏的现状。
换句话说,Cloudera将帮助清华大学数据科学研究院培养更多Hadoop使用者和开发者。这样作一方面可以缓解国内大数据人才紧缺的现状,让大数据技术可以进入更多企和行业;另外一方面也为Hadoop项目在将来可以持续发展创造条件,毕竟对于一贯技术来讲,有人用才有将来。
虽然清华大学是国内首家与Cloudera合做的高效,但从全球来看,Cloudera与教育界的合做已经开展多年。Doug Cutting表示:Cloudera已经与美国、欧洲、新加坡以及亚洲其余国家的高校和研究机构开展了普遍的合做,为他们提供全套免费课程,帮助大学生和研究人员可以更好的使用大数据技术。
显然,Cloudera所执行的是一项至关长远的计划,这也说明Cloudera对Hadoop技术将来发展的信心。
面对竞争,Hadoop的将来是怎样的?
与商业领域同样,技术一样面临竞争。在不少人看来,Hadoop目前最大的竞争对手正是很是火爆的Spark。
对此,Doug Cutting表示:Spark的确在MapReduce方面相比Hadoop拥有更大的性能优点。但Hadoop自己还包括分布式文件系统和任务调度、规划等众多功能;而这些则是Spark所没有的。
做为开源技术,Hadoop和Spark都是模块化开发的。这也就意味着他们是能够相互融合,一块儿使用的。
在将来,咱们极可能看到Spark取代了Hadoop中的MapReduce模块,但分布式计算系统中的存储和调度等功能仍须要Hadoop来实现。
换句话说,Hadoop与Spark之争实际是个伪命题,一样是大数据分析技术,他们的将来应该是融合和协做。
大数据的故事才刚刚开始
从行业总体的发展来看,人类只是刚刚意识到了大数据的重要性,而大数据技术自己的发展和完善仍须要至关长的时间。而对于像Cloudera这样在大数据领域取得先发优点的企业来讲,不管是大数据仍是开源技术,故事才知是刚刚开始。将来仍旧不可估量。web