第四篇：coalesce 和repartition 在shuffle 和并行度之间的选择（spark2.3持续更新中...........）

时间 2019-12-05

标签第四 coalesce repartition shuffle 并行之间选择 spark2.3 spark 持续更新栏目 Spark 繁體版

原文原文链接

coalesce：不须要shuffle, 最大线程数，并行度受分区数的影响,若是合并成的分区数过少，能够采用repartitionspa def coalesce(numPartitions: Int): Dataset[T] = withTypedPlan { Repartition(numPartitions, shuffle = false, logicalPlan) } repar

>>阅读原文<<