Spark中自定义分区器实现shuffle

 Spark中实现了两种类型的分区函数,一个是基于哈希的HashPartitioner,另一个是基于范围的RangPartitioner。只对于key--value的java 的RDD才有Partitioner。决定shuffle后的分区输出数量。同时咱们能够自定义Partitioner。apache     import java.net.URL import org.apache.spark
相关文章
相关标签/搜索