Spark项目实战-实际项目中常见的优化点-广播大变量

首先我们从这篇博客简单了解下Spark中的共享变量。然后我们在这里举个简单例子更加深入的了解一下为什么需要广播大变量。 假设,我们现在有一个外部变量A(大小10M),然后有三个Task都需要用到变量A。 在这种默认的,task执行的算子中使用了外部的变量,每个task都会获取一份变量的副本,通俗点说就是每个task中都会有一个变量A,那么3个task并行执行的时候就会占掉30M内存。 这种情况有什
相关文章
相关标签/搜索