reduceByKey、groupByKey以及combineByKey的区别

概述:这三种算子在spark中用的比较多。 reduceByKey: 是对key的value进行merge操作,在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,与groupByKey类似,reduce任务的个数可以通过第二个可选的参数来设置,最重要的是它能够在本地先进行merge操作,并且merge操作可以通过函数自定义; gro
相关文章
相关标签/搜索