Spark共享变量——广播变量和累加器

什么是共享变量 一般状况下,当向Spark操做(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中全部变量的副本。这些变量被复制到全部的机器上,远程机器上并无被更新的变量向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。因此Spark提供了两种有限类型的共享变量,广播变量和累加器。java 广播变量 广播变量原理图:程序员 广播变量的运用:算法 v
相关文章
相关标签/搜索