spark 使用aggregateByKey 代替groupbyKey

性能调优中有个方案, 叫使用 aggregateBykey 代替 groupbykey, 为啥呢? 应为aggregateByKe,使用map-side预聚合的shuffle操做, 至关于再map端进行了聚合的操做,至关于mapreduce 中进行combiner     ide   介绍一下aggregateBykey这个方法 这里面一共传了三个 参数,这里用到了柯里化 ,  我分别作一下参数介
相关文章
相关标签/搜索