Spark Rdd coalesce()方法和repartition()方法

时间 2021-01-16

原文原文链接

在Spark的Rdd中，Rdd是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。有两种方法是可以重设Rdd的分区：分别是 coalesce()方法和repartition()。这两个方法有什么区别，看看源码就