Spark是什么?架构
基于内存计算的大数据并行计算框架框架
2009年诞生布局
全栈多计算范式的高效数据流水线大数据
Spark相比MapReduce的优点orm
1.中间结果输出blog
2.数据格式和内存布局内存
3.执行策略io
4.任务调度的开销form
Spark生态系统BDAStransform
Berkeley Data Analytics Stack
Spark架构
Spark计算模型
RDD(transformation and action)
算子分类:value型Transformation算子(map,union,filter,cache),key-value型Transformation算子(mapValues,reduceByKey,join),action算子(foreach,saveAsTextFile,collect,count,reduce)