Spark知识整理

Spark是什么?架构

基于内存计算的大数据并行计算框架框架

2009年诞生布局

全栈多计算范式的高效数据流水线大数据

 

Spark相比MapReduce的优点orm

1.中间结果输出blog

2.数据格式和内存布局内存

3.执行策略io

4.任务调度的开销form

 

Spark生态系统BDAStransform

 Berkeley Data Analytics Stack

 

Spark架构

Spark计算模型

RDD(transformation  and action)

算子分类:value型Transformation算子(map,union,filter,cache),key-value型Transformation算子(mapValues,reduceByKey,join),action算子(foreach,saveAsTextFile,collect,count,reduce)

相关文章
相关标签/搜索