spark中repartition和partitionBy的区别

今天来介绍一下spark中两个经常使用的重分区算子,repartition 和 partitionBy 都是对数据进行从新分区,默认都是使用 HashPartitioner,区别在于partitionBy 只能用于 PairRdd,可是当它们同时都用于 PairRdd时,效果也是不同的,下面来看一个demo.javascript package test import org.apache.lo
相关文章
相关标签/搜索