3-spark_shuffle过程-Standalone

shuffle过程 http://www.javashuo.com/article/p-cklavxtc-mz.html shuffle 是什么: 为什么要shuffle: 针对两类操作: 聚合(groupby) + 排序(sortby) 这两类操作每个partition需要用到所有其他所有partition的数据,也就是宽依赖 shuffle做了什么: 分成两个阶段: map端shuffle w
相关文章
相关标签/搜索