Spark从入门到精通第十一课: Spark中的宽窄依赖 && Spark中的Shuffle && 内存管理策略

一、宽依赖和窄依赖 一、区别 窄依赖:对于一个父rdd,子rdd的一个分区只依赖其一个分区。 窄依赖容许在一个集群节点上以流水线的方式(pipeline)计算全部父分区。 算子:map、union、map join和broadcast join。 宽依赖:对于一个父rdd,子rdd的一个分区依赖其多个分区. 宽依赖须要首先计算好全部父分区数据,而后在节点之间进行Shuf
相关文章
相关标签/搜索