Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。html
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具备的优势;但不一样于MapReduce的是Job中间输出结果能够保存在内存中,从而再也不须要读写HDFS,所以Spark能更好地适用于数据挖掘与机器学习等须要迭代的MapReduce的算法。算法
Spark 是一种与 Hadoop 类似的开源集群计算环境,可是二者之间还存在一些不一样之处,这些有用的不一样之处使 Spark 在某些工做负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了可以提供交互式查询外,它还能够优化迭代工做负载。apache
Spark 是在 Scala 语言中实现的,它将 Scala 用做其应用程序框架。与 Hadoop 不一样,Spark 和 Scala 可以紧密集成,其中的 Scala 能够像操做本地集合对象同样轻松地操做分布式数据集。编程
尽管建立 Spark 是为了支持分布式数据集上的迭代做业,可是实际上它是对 Hadoop 的补充,能够在 Hadoop 文件系统中并行运行。经过名为 Mesos 的第三方集群框架能够支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。数组
1.更快的速度:内存计算下,Spark 比 Hadoop 快100倍。缓存
1.内存计算引擎,提供Cache机制来支持须要反复迭代计算或者屡次数据共享,减小数据读取的I/O开销多线程
2.DAG引擎,减小屡次计算之间中间结果写到HDFS的开销;并发
3.使用多线程池模型来减小task启动开销,shuffle过程当中避免没必要要的sort操做已经减小磁盘I/O操做;框架
2.易用性:机器学习
1.Spark 提供了80多个高级运算符。
2.提供了丰富的API,支持JAVA,Scala,Python和R四种语言;
3.代码量比MapReduce少2~5倍;
3.通用性:Spark 提供了大量的库,包括SQL、DataFrames、MLlib、GraphX、Spark Streaming。 开发者能够在同一个应用程序中无缝组合使用这些库。
4.支持多种资源管理器:Spark 支持 Hadoop YARN,Apache Mesos,及其自带的独立集群管理器
Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分红小的时间片段(几秒),以相似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是由于Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也能够用于实时计算,另外一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集能够从源数据从新计算达到容错处理目的。此外小批量处理的方式使得它能够同时兼容批量和实时数据处理的逻辑和算法。方便了一些须要历史数据和实时数据联合分析的特定应用场合。
1.MapReduce局限性:
1.仅支持Map和Reduce两种操做;
2.处理效率低效;不适合迭代计算(如机器学习、图计算等),交互式处理(数据挖掘)和流失处理(日志分析)
3.Map中间结果须要写磁盘,Reduce写HDFS,多个MR之间经过HDFS交换数据;
4.任务调度和启动开销大;
5.没法充分利用内存;(与MR产生时代有关,MR出现时内存价格比较高,采用磁盘存储代价小)
6.Map端和Reduce端均须要排序;
2.MapReduce编程不够灵活。(比较Scala函数式编程而言)
3.框架多样化[采用一种框架技术(Spark)同时实现批处理、流式计算、交互式计算]:
1.批处理:MapReduce、Hive、Pig;
2.流式计算:Storm
3.交互式计算:Impala
1.RDD:Resilient Distributed Datasets,弹性分布式数据集
1.分布在集群中的只读对象集合(由多个Partition 构成);
2.能够存储在磁盘或内存中(多种存储级别);
3.经过并行“转换”操做构造;
4.失效后自动重构;
5.RDD基本操做(operator)
大体能够分为三大类算子:
3.示例:
4.Spark RDD cache/persist
1.Spark RDD cache
1.容许将RDD缓存到内存中或磁盘上,以便于重用
2.提供了多种缓存级别,以便于用户根据实际需求进行调整
3.cache使用
2.以前用MapReduce实现过WordCount,如今咱们用Scala实现下wordCount.是否是很简洁呢?!
Scala学习连接:https://yq.aliyun.com/topic/69
import org.apache.spark.{SparkConf, SparkContext} object SparkWordCount{ def main(args: Array[String]) { if (args.length == 0) { System.err.println("Usage: SparkWordCount <inputfile> <outputfile>") System.exit(1) } val conf = new SparkConf().setAppName("SparkWordCount") val sc = new SparkContext(conf) val file=sc.textFile("file:///hadoopLearning/spark-1.5.1-bin-hadoop2.4/README.md") val counts=file.flatMap(line=>line.split(" ")) .map(word=>(word,1)) .reduceByKey(_+_) counts.saveAsTextFile("file:///hadoopLearning/spark-1.5.1-bin-hadoop2.4/countReslut.txt") } }
3.关于RDD的Transformation与Action的特色咱们介绍下;
1.接口定义方式不一样:
Transformation: RDD[X]-->RDD[y]
Action:RDD[x]-->Z (Z不是一个RDD,多是一个基本类型,数组等)
2.惰性执行:
Transformation:只会记录RDD转化关系,并不会触发计算
Action:是触发程序执行(分布式)的算子。
程序的执行流程:
1.Local(本地模式):
1.单机运行,一般用于测试;
1.local:只启动一个executor
2.local[k]:启动k个executor
3.local[*]:启动跟cpu数目相同的executor
2.standalone(独立模式)
1.独立运行在一个集群中
3.Yarn/mesos
1.运行在资源管理系统上,好比Yarn或mesos
2.Spark On Yarn存在两种模式
1.yarn-client
2.yanr-cluster
3.比较两种方式区别:
1.基于日志数据的快速查询系统业务;
1.构建于Spark之上的SparkSQL ,利用其快速以及内存表等优点,承担了日志数据的即席查询工做。
2.典型算法的Spark实现
1.预测用户的广告点击几率;
2.计算两个好友间的共同好友数;
3.用于ETL的SparkSQL和DAG任务;