Spark 中 Partition,Task,core,Executor的个数决定因素和关系

分区(Partition)数 我们都知道一个 RDD 中有多个 Partition,Partition 是 Spark RDD 计算的最小单元,决定了计算的并发度。 分区数如果远小于集群可用的 CPU 数,不利于发挥 Spark 的性能,还容易导致数据倾斜等问题。 分区数如果远大于集群可用的 CPU 数,会导致资源分配的时间过长,从而影响性能。 那么,Partition 的数量是由什么决定的呢?
相关文章
相关标签/搜索