第四篇:coalesce 和repartition 在shuffle 和并行度之间的选择(spark2.3持续更新中...........)

coalesce:不须要shuffle, 最大线程数,并行度受分区数的影响,若是合并成的分区数过少,能够采用repartitionspa def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan) }  repar
相关文章
相关标签/搜索