spark之广播共享变量broadcast

广播变量用来把变量在全部节点的内存之间进行共享,这样的方式尤为是在分布式集群中进行并行计算提供了很大的便利,若是数据集很大,须要分布式存储到各个DataNode上,根据“计算向数据靠近”的原则,将每个DataNode上都要使用的变量(相似全局变量)进行广播,而不是在每个DataNode上产生一个副本,好比利用sc.broadcast将聚类中心设置为一个只读变量,并广播给每个集群中的机器进行共享相同
相关文章
相关标签/搜索