Spark的宽依赖和窄依赖

Spark的计算的基本单位一个一个的算子,其计算流程也是由一个个基本的算子构成的,这些算子之间的依赖关系可以分为宽依赖和窄依赖。 Spark是分布式计算,其数据也是分布式的,即所计算的数据可能分为好多个块。有些计算对数据的操作相对简单,即某一块儿的数据处理不需要涉及到其他块的数据,就是对本块数据处理完可以直接输出到下一个数据块,中间不需要更多的过程参与。比如map()算子,本身就是对每个数据进行循
相关文章
相关标签/搜索