Spark部署及应用

 

     在飞速发展的云计算大数据时代,Spark是继Hadoop以后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了本身的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有本身的技术,而且是Apache顶级Project,能够预计的是2014年下半年到2015年Spark在社区和商业应用上会有爆发式的增加。算法

 

Spark在业界的使用案例网络

       Spark技术在国内外的应用开始愈来愈普遍,它正在逐渐走向成熟,并在这个领域扮演更加剧要的角色。国外一些大型互联网公司已经部署了Spark。例如:一直支持Hadoop的四大商业机构(Cloudera、MapR、Hortonworks、EMC)已纷纷宣布支持Spark;Mahout前一阶段也表示,将再也不接受任何形式以MapReduce实现的算法,同时还宣布了基于Spark新的算法;而Cloudera的机器学习框架Oryx的执行引擎也将由Hadoop的MapReduce替换成Spark;另外,Google也已经开始将负载从MapReduce转移到Pregel和Dremel上;FaceBook也宣布将负载转移到Presto上……而目前,咱们国内的淘宝、优酷土豆、网易、Baidu、腾讯等企业也已经使用Spark技术在本身的商业生产系统中。框架

        Spark是最新一代的大数据处理框架,在数据统计分析、数据挖掘、流处理、图技术、机器学习、偏差查询等方面都有本身的技术,从咱们的技术研究和长期业界观察来看,Spark会成为大数据时代集大成的计算框架。随着2014年5月30日Spark  1.0.0的发布,Spark已经相对稳定,能够放心使用。机器学习

 

Spark如何部署到生产环境oop

       对于Spark该如何部署到生产环境中,Spark是最新一代大数据计算框架,使用时须要单独部署集群,Spark集群部署方式主要有三种:Standalone、Yarn、Mesos。通常而言,在部署的时候都会基于HDFS文件存储系统,因此,若是已经有Hadoop平台,部署Spark就很是容易,只需在平台上增长Spark功能便可。目前,国内企业淘宝使用的Spark就是基于Hadoop的yarn。固然也能够采用standalone和zookeeper的方式进行从无到有的构建Spark集群,这也是一种常见和理想的选择,而且这种方式也是官方推荐的。学习

 

企业如何作云计算大数据部署的技术选型大数据

       如今,谈到云计算大数据话题的时候不少人仍是多会提到Hadoop,对Spark了解的人还不是不少,若是企业有计划要部署云计算大数据的话,如何作技术选型是很重要的。对此,Spark亚太研究院院长和首席专家王家林给出了以下建议:云计算

       若是企业之前没有云计算大数据集群,选择使用Spark要比Hadoop更为明智,缘由是:首先,Hadoop自己的计算模型决定了它的全部工做都要转化成Map、Shuffle和Reduce等核心阶段,因为每次计算都要从磁盘读或者写数据,并且整个计算模型须要网络传输,这就致使愈来愈难以忍受的延迟性。其次,Hadoop还不能支持交互式应用。rest

       而Spark能够轻松应对数据统计分析、数据挖掘、流处理、图技术、机器学习、偏差查询等,且Spark的“One stack  rule them all”的特性也致使部署的简易性,省去多套系统部署的麻烦。内存

       若是技术选型为Spark,那么,解决数据统计分析、实时流计算、数据挖掘基本只须要一个团队便可,而若是采用Hadoop则须要不一样团队作处理每一项专门的技术,极大的增长人力成本。

       另外,对于已经有Hadoop集群的公司而言,建议尝试使用Spark技术,能够从Spark的Shark或者Spark SQL开始,推荐使用Spark的实时流处理和机器学习技术。

 

Spark趋势,中型企业如何抉择

       Spark因其部署的简易性和“One stack  to rule them all”的特色,是大数据时代中型企业处理大数据的福音。例如,Yahoo!、淘宝、优酷土豆、网易、腾讯等国内大型知名企业已经在商业生产环境下开始使用Spark技术;Intel、IBM、Linkin、Twwitter等国外大型知名企业也都在大力支持Spark。随着这些国内外大企业的使用,Spark技术的发展必然势不可挡,行业普及很快就会到来,所以对于中型企业的使用和普及,只是时间问题。中型公司若是要基于Spark进行部署,只需配备约5-20人的团队,便可在Spark上作数据分析统计、机器学习、实施流处理计算等工做。

       对于电信、金融等行业,使用Spark一样势不可挡。在数据统计分析方面,Spark比Hadoop快几十倍,若是是使用内存表,Spark更是比Hadoop快100倍以上。同时Spark的实时流处理、机器学习、图计算也很是高效,能够充分知足电信、金融行业数据挖掘的须要。

       做为惟一能够革命Hadoop并正在成为大数据计算框架霸主的Spark技术,因为其“One stack to rule them all”的特性(使用一个统一的技术堆栈解决了大数据处理生态系统中的流处理、图技术、机器学习、NoSQL查询等方面的技术问题),在2014年10月左右会在中国的需求有爆发之势,这种需求包含企业使用Spark的需求和Spark人才的迫切需求,同时,这种需求将不限已经使用Spark的Yahoo!、淘宝、腾讯、网易等国内大型企业,还会包含不少中小企业。

相关文章
相关标签/搜索