Spark算子执行流程详解之六

26.coalesce coalesce顾名思义为合并,就是把多个分区的RDD合并成少许分区的RDD,这样能够减小任务调度的时间,可是请记住:合并以后不能保证结果RDD中的每一个分区的记录数量是均衡的,由于合并的时候并无考虑合并前每一个分区的记录数,合并只会减小RDD的分区个数,所以并不能利用它来解决数据倾斜的问题。java def coalesce(numPartitions: Int, shu
相关文章
相关标签/搜索