第5章 RDD编程进阶

上篇:第4章 大数据Spark链接HBase数据读取与保存java Spark 三大数据结构 RDD:分布式数据集 广播变量:分布式只读共享变量 累加器: 分布式只写共享变量web 一、累加器 累加器用来对信息进行聚合,一般在向 Spark传递函数时,好比使用 map() 函数或者用 filter() 传条件时,可使用驱动器程序中定义的变量,可是集群中运行的每一个任务都会获得这些变量的一份新的副本
相关文章
相关标签/搜索