SparkCore 累加器和广播变量(Spark编程进阶)

    本章介绍前几章没有说起的 Spark 编程的各类进阶特性,会介绍两种类型的共享变量: 累加器(accumulator)与广播变量(broadcast variable)。累加器用来对信息进行聚合,而 广播变量用来高效分发较大的对象。在已有的 RDD 转化操做的基础上,咱们为相似查询 数据库这样须要很大配置代价的任务引入了批操做。为了扩展可用的工具范围,本章会介 绍 Spark 与外部程序交
相关文章
相关标签/搜索