Spark RDD coalesce()方法和repartition()方法

时间 2019-12-05

标签 spark rdd coalesce 方法 repartition 栏目 Spark 繁體版

原文原文链接

在Spark的RDD中，RDD是分区的。java 有时候须要从新设置RDD的分区数量，好比RDD的分区中，RDD分区比较多，可是每一个RDD的数量比较小，须要设置一个比较合理的分区。或者须要把RDD的分区数量调大。还有就是经过设置一个RDD的分区来达到设置生成的文件的数量。有这两种方法是能够重设RDD分区：分别是coalesce()方法和repartition()。这两个方法有什么区别，看看源

>>阅读原文<<