Spark 共享变量

时间 2019-11-08

标签 spark 共享变量栏目 Spark 繁體版

原文原文链接

翻译 Spark 共享变量部分的官方文档（Spark 2.4.3）。html

一般，当传递给 Spark 操做 (如 map 或 reduce ) 的函数在远程集群节点上执行时，在函数中使用的全部外部变量都是单独拷贝的变量副本。这些变量被复制到每台机器上，对远程机器上的变量更新不会传播回驱动程序。支持通用的、任务间的读写共享变量是很低效的。不过，Spark确实为两种常见的使用模式提供了两种有限的共享变量类型：广播变量和累加器。java

1、广播变量

广播变量容许程序员在每台机器上保留一个只读变量，而不是给每一个 task 都发送一份它的副本。例如，它们可用于使用一个有效的方式为每一个节点提供很大的输入数据集的副本。 Spark 还尝试使用有效的广播算法来分发广播变量，以下降通讯成本。程序员

Spark 的全部 action 操做都是贯穿着不少个 stage 的，这些 stage 由 shuffle 操做进行划分。 Spark 自动广播每一个 stage 中任务所需的公共数据。以这种方式广播的数据是以序列化形式缓存并在运行每一个 task 以前进行反序列化。因此，广播变量在多个 stage 中的全部 task 都须要一份一样的数据这样的场景中颇有用。web

广播变量是经过 SparkContext.broadcast(v) 这样的方式建立的。它是将原始变量 v 包裹到本身封装的变量中去，而后经过 .value() 这个方法获取原始变量的值，代码以下：算法

Broadcast<int[]> broadcastVar = sc.broadcast(new int[] {1, 2, 3});

broadcastVar.value();
// returns [1, 2, 3]
复制代码

当广播变量被建立以后，在集群上全部的计算函数中都会使用广播变量去计算，所以原始变量 v 就不须要屡次被复制到不少个节点上了。另外，原始变量 v 在广播变量被建立以后不可再被修改，若是在广播变量建立以后再去修改原始变量 v 会致使集群中每一个节点拿到的共享变量值不同。apache

2、累加器

累加器内部是经过关联和交换操做实现 “add” 操做的变量，所以能够并发执行。它能够用来实现计算器或者求和操做。Spark 自然支持数值类型的累加，程序员也能够自定义一些新的数据类型用来累加。api

做为用户，你能够建立命名或者未命名的累加器。以下图所示，一个命名的累加器（counter）会被展现在使用该累加器的 stage 的 web UI 上面。 Spark 会展现每个被 Tasks 表中的任一个 task 修改过的累加器的值。缓存

在 UI 中追踪累加器的值能够帮助理解运行中的各个 stage 的进度。并发

一个数字类型的累加器能够经过这样的方式建立：SparkContext.longAccumulator() 或者 SparkContext.doubleAccumulator() ，去计算 long 类型或者 double 类型的数值累加。集群中每一个 task 在作累加计算任务的时候能够经过调用 add 方法去实现。可是，不能够在集群上读取累加器的值。只有在 driver 程序中才能够读取累加器的值，经过 value 这个方法。函数

下面的这段代码是用累加器去将一个 array 中的每一个元素相加：

LongAccumulator accum = jsc.sc().longAccumulator();

sc.parallelize(Arrays.asList(1, 2, 3, 4)).foreach(x -> accum.add(x));
// ...
// 10/09/29 18:41:08 INFO SparkContext: Tasks finished in 0.317106 s

accum.value();
// returns 10
复制代码

除了在代码中使用内建的 long 类型的累加器以外，程序员也能够经过继承 AccumulatorV2 去实现想要的类型的累加器。AccumulatorV2 这个抽象类有不少个方法须要去重写，如：reset 方法（用来将累加器置零的）、add 方法（用来和另一个值作累加的）、merge 方法（用来合并另一个相同类型的累加器到该累加器的）。其它须要被重写的方法能够参考 API documentation 。好比，咱们能够自定义一个累加器 MyVector 表明数学中的向量集合，能够这么写：

class VectorAccumulatorV2 implements AccumulatorV2<MyVector, MyVector> {

  private MyVector myVector = MyVector.createZeroVector();

  public void reset() {
    myVector.reset();
  }

  public void add(MyVector v) {
    myVector.add(v);
  }
  ...
}

// Then, create an Accumulator of this type:
VectorAccumulatorV2 myVectorAcc = new VectorAccumulatorV2();
// Then, register it into spark context:
jsc.sc().register(myVectorAcc, "MyVectorAcc1");
复制代码

注意一点，当程序员自定义了一些数据类型的累加器以后，累加器的值的数据类型能够和你相加的元素类型不一致。

注意：当 Spark 的 task 计算任务结束后，Spark 将会尝试着将这个 task 中全部的累加计算合并到一个累加器上去。若是合并失败，Spark 会忽略此次失败，仍然认为这个 task 的计算任务是成功的，而且继续跑其它的 task。因此，一个有 bug 的累加器将不会影响 Spark 的做业，但一个累加器可能会在整个 Spark 做业成功跑完以后尚未成功更新到最新的值。

因为累加器的 update 操做只会在 action 算子内部执行，Spark 保证了每一个 task 对累加器的更新操做只有一次。好比重启 task 不会更新累加器的值。在 transform 算子操做时，用户须要知道每一个 task 对累加器的更新操做可能不止一次，好比一但某个 task 或者 job 的 stage 被从新执行。

累加器不会改变 Spark 的 lazy 特性。若是累加器的值在 RDD 某个操做中被更新了，他们的值只会在这个 RDD 的某个 action 操做的某个部分计算中更新。所以，累加器的更新不会保证在像 map 这样的算子中被马上更新。能够看下面的代码片断：

LongAccumulator accum = jsc.sc().longAccumulator();
data.map(x -> { accum.add(x); return f(x); });
// Here, accum is still 0 because no actions have caused the `map` to be computed.
复制代码