Spark Rdd coalesce()方法和repartition()方法

在Spark的Rdd中,Rdd是分区的。 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。 有两种方法是可以重设Rdd的分区:分别是 coalesce()方法和repartition()。  这两个方法有什么区别,看看源码就
相关文章
相关标签/搜索