spark shuffle学习笔记

spark shuffle学习笔记 Shuffle就是包裹在各种需要重分区的算子之下的一个对数据进行重新组合的过程。 Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分,并将数据发送给对应的 Reducer 的过程 shuffle shuffle连接map与reduce过程 Map阶段通过shuffle读取数据并输出到对应的Reduce Reduce阶段负责从Map端拉取数据
相关文章
相关标签/搜索