【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节:为何Spark是大数据必然的如今和将来?(1)

1、MapReduce已死,Spark称霸 算法

因为Hadoop的MapReduce高延迟的死穴,致使Hadoop无力处理不少对时间有要求的场景,人们对其批评愈来愈多,Hadoop无力改变如今而致使正在死亡。正如任何领域同样,死亡是一个过程,Hadoop正在示例这样的一个过程,Hadoop的死亡过程在2012年已经开始网络

1,原先支持Hadoop的四大商业机构纷纷宣布支持Spark;架构

2,Mahout前一阶段表示从如今起他们将再也不接受任何形式的以MapReduce形式实现的算法,另一方面,Mahout宣布新的算法基于Spark;框架

3,Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark;机器学习

4,Google已经开始将负载从MapReduce转移到Pregel和Dremel上oop

5,FaceBook则将负载转移到Presto上学习

 

如今不少原来使用深度使用Hadoop的公司都在纷纷转向Spark,国内的淘宝是典型的案例。在此,咱们以使用世界上使用Hadoop最典型的公司Yahoo!为例,你们能够看一下其数据处理的架构图:大数据

 

而使用Spark后的架构以下:云计算

你们能够看出,现阶段的Yahoo!是使用Hadoop和Spark并存的架构,而随着时间的推动和Spark自己流处理、图技术、机器学习、NoSQL查询的出色特性,最终Yahoo!可能会完成Spark全面取代Hadoop,而这也表明了全部作云计算大数据公司的趋势。spa

 

或许有朋友会问,Hadoop为什么不改进本身?

其实,Hadoop社区一直在改进Hadoop自己,但事实是无力回天:

1,Hadoop的改进基本停留在代码层次,也就是修修补补的事情,这就致使了Hadoop如今具备深度的“技术债务”,负载累累;

2,Hadoop自己的计算模型决定了Hadoop上的全部工做都要转化成Map、Shuffle和Reduce等核心阶段,因为每次计算都要从磁盘读或者写数据,同时真个计算模型须要网络传输,这就致使了愈来愈不能忍受的延迟性,同时在前一个任务运行完以前,任何一个任务都不能够运行,这直接致使了其无力支持交互式应用;

 

那么,为何不所有从新写一个更好的Hadoop呢?答案是Spark的出现使得没有必要这样作了。

Spark是继Hadoop以后,成为替代Hadoop的下一代云计算大数据核心技术,目前SPARK已经构建了本身的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有本身的技术,而且是Apache顶级Project,能够预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增加。

国外一些大型互联网公司已经部署了Spark。甚至连Hadoop的早期主要贡献者Yahoo如今也在多个项目中部署使用Spark;国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用Spark技术用于本身的商业生产系统中,国内外的应用开始愈来愈普遍。Spark正在逐渐走向成熟,并在这个领域扮演更加剧要的角色。

2、企业为何须要Spark;

 

1,如今不少原来使用深度使用Hadoop的公司都在纷纷转向Spark,国内的淘宝是典型的案例。在此,咱们以使用世界上使用Hadoop最典型的公司Yahoo!为例,你们能够看一下其数据处理的架构图:

而使用Spark后的架构以下:

你们能够看出,现阶段的Yahoo!是使用Hadoop和Spark并存的架构,而随着时间的推动和Spark自己流处理、图技术、机器学习、NoSQL查询的出色特性,最终Yahoo!可能会完成Spark全面取代Hadoop,而这也表明了全部作云计算大数据公司的趋势。

 

2,Spark是能够革命Hadoop的目前惟一替代者,可以作Hadoop作的一切事情,同时速度比Hadoop快了100倍以上:

Logistic regression in Hadoop and Spark

能够看出在Spark特别擅长的领域其速度比Hadoop快120倍以上!

 

,3,原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera知名的Hadoop供应商MapR

4,Spark是继Hadoop以后,成为替代Hadoop的下一代云计算大数据核心技术,目前SPARK已经构建了本身的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有本身的技术,而且是Apache顶级Project,能够预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增加。

5,国外一些大型互联网公司已经部署了Spark。甚至连Hadoop的早期主要贡献者Yahoo如今也在多个项目中部署使用Spark;国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用Spark技术用于本身的商业生产系统中,国内外的应用开始愈来愈普遍。Spark正在逐渐走向成熟,并在这个领域扮演更加剧要的角色。

6,不得不提的是Spark的“One stack to rule them all”的特性,Spark的特色之一就是用一个技术堆栈解决云计算大数据中流处理、图技术、机器学习、交互式查询、偏差查询等全部的问题

7,Mahout前一阶段表示从如今起他们将再也不接受任何形式的以MapReduce形式实现的算法,另一方面,Mahout宣布新的算法基于Spark;

8,若是你已经使用了Hadoop,就更加须要Spark。Mahout前一阶段表示从如今起他们将再也不接受任何形式的以MapReduce形式实现的算法,另一方面,Mahout宣布新的算法基于Spark,同时,这几年来,Hadoop的改进基本停留在代码层次,也就是修修补补的事情,这就致使了Hadoop如今具备深度的“技术债务”,负载累累;

8,,此时咱们只须要一个技术团队经过Spark就能够搞定一切问题,而若是基于Hadoop就须要分别构建实时流处理团队、数据统计分析团队、数据挖掘团队等,并且这些团队之间不管是代码仍是经验都不可相互借鉴,会造成巨大的成本,而使用Spark就不存在这个问题;

9,百亿美圆市场,教授为之辞职,学生为止辍学,大势所趋!

10,Life is short!

相关文章
相关标签/搜索