近日,腾讯主导的Apache Hadoop2.8.4最新版本发布,为国内科技公司迈出了国际开源领域贡献的重要一步。数据库
2006年Apache Hadoop发布,2008年Hadoop成为Apache顶级项目。在那时,中国移动、百度、淘宝等都已经开始使用Hadoop技术。Hadoop如今早已成为Apache软件基金会的金牌项目之一。不只如此,它还孕育了包括HBase、Hive、ZooKeeper等一系列知名Apache顶级项目,它们一开始都是以Apache Hadoop子项目的形式在社区运做、为开发者熟知的。服务器
此次腾讯主导发布的Apache Hadoop2.8.4版本,涉及20多个大大小小的特性和优化,清单以下:oop
负责这一版本总体进度的Release Manager,是来自腾讯云产品部大数据及人工智能产品中心的专家研究员堵俊平,他同时也是Apache Hadoop社区PMC的成员。大数据
Apache软件基金会推崇PMC制度,每一个开源项目都是一个PMC,即项目管理委员会,能够自行决定技术发展方向和社区运做模式,但须要公开信息,并按期向Apache的董事会汇报,以便董事会监督。优化
成为PMC的成员但是很是不容易的事,必需要一步步“打怪升级”。要实现从一个普通的Developer到PMC Member的跨越,除了码代码之外,开源社区的组织能力也要强,是否是帅呆了?云计算
堵俊平,腾讯T4大数据技术专家,曾任EMC,VMware资深研发工程师,Hortonworks美国YARN团队负责人。深耕云计算,大数据方向10余年,在多个社区均享有极高知名度,包括Apache Hadoop社区Committer & PMC,并领导hadoop 2.六、2.8等应用很是普遍的社区release。曾领导开发多个Hadoop在云平台上优化与拓展的项目与产品。目前在腾讯致力于领导腾讯云大数据及人工智能产品研发工做。人工智能
小编采访了一下这位男神,接下来就让他给你们讲一下,此次新版本发布过程当中的小细节吧。spa
Q:不少人可能据说过“开源”,但了解很少,您能够简单介绍一下吗?操作系统
A:开源能够理解为“向公众开放源代码”。近几年来热度不减的大数据,就是由开源的软件来驱动整个产业生态的。这里就不得不提到一个里程碑式的开源产品——hadoop:从谷歌的三篇论文,到雅虎的hadoop,开启了现在的大数据时代。开放源代码
过去的系统软件主要是由闭源软件来驱动的。虽然像操做系统涌现出Linux这样优秀的软件,但后面的数据库和应用服务器,仍然几乎都是从闭源产品去驱动的。
hadoop诞生后的这十年来,一直都是大数据生态的核心,它改变了以往的软件形式,成为了最主流的开源项目之一。如今基本上各家数据平台团队,都是在hadoop生态系统上小修小改,去支持大数据相关的业务系统,能够认为它是开源的一个标准吧。
Q:与传统的闭源生态相比,开源有什么好处呢?
A:首先是避免“重复发明轮子”的问题,不一样的我的和团体能够在公开的代码平台上集体创做,而不是封闭起来作重复的事情。其次是用户没必要被绑架在特定的软件平台上,随时能够迁移应用和数据。最后是核心知识产权,好比之前的IOE,不仅是没有“中国芯”的问题,上面的应用软件和系统软件可能随时面临被人封锁的危险,而开源就不会有这个问题,它彻底公开透明。另外,开源也鼓励公司规划长线的技术投资,而不仅是短线的利益操做。
Q:腾讯此次主导阿帕奇社区hadoop新版本的发布,在国内算是首次吗?
A:对,之前都是由微软、Hortonworks和Cloudera等国外大数据厂家轮流坐庄,而这个版本是第一次彻底由国内的公司来支持的。从技术号召力或者对整个开源社区的影响力来讲,能够鼓励国内的开发者和公司更积极地参与开源项目贡献,敢于承担更大的责任,更多地回馈开源社区。
Q:给整个社会也带来了哪些积极的影响呢?
A:首先,大数据软件属于基础技术,此次平台是由腾讯作技术主导的,在国内算是一个突破。其次,对于开发者社区来讲,也是比较可靠的一个社区、最热门的项目。最后,对于普通人来讲,也是能够从中受益的。由于基础平台能力的提升,也伴随着数据处理能力的提升,可让你们的生活更方便。大数据时代到来以前,可能没有那么多面向数据的业务,好比地图业务、O2O业务、智能推荐系统等等。包括如今极具话题性的AI人工智能,若是没有大数据平台的进步,也是发展不起来的。
Q:以前是有技术难关的限制吗?
A:过去十年,中国的互联网公司发展很快,你们都以追求业务为主,在技术或开源方面作得不够,这是咱们相较西方的短板。国内不少公司其实也尝试过开源,但它只有开源的代码,没有开源的社区,也就是本身以为某个产品作得不错,就把源代码开放出来而已。
源代码的开放和开源社区是两回事,区别就是你这个开源的代码,其它第三方(尤为是你的生态合做伙伴)有没有能力来参与。
如今整个大数据的热潮,其实就是被几款开源的核心软件所推进的。中国的这些大公司在具有了经济实力以后,也开始以开源为手段想要构造一个更好的生态。这可能须要一个过程,但你们已经慢慢意识到这些基础软件跟开源结合的重要性了。