RDD累加器和广播变量

时间 2021-01-16

原文原文链接

在默认情况下，当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候需要在多个任务之间共享变量，或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求，Spark提供了两种类型的变量：累加器accumulators:累加器支持在所有不同节点之间进行累加计算(比如计数或者求