spark从入门到放弃二十四:Spark 性能优化(7)广播共享变量

文章地址:http://www.haha174.top/article/details/254421 假设现在有一个配置文件很大又100M.默认的情况下算子函数使用到的外部的数据,会拷贝到每一个task中,此时如果使用到的外部的数据很大的话,那么岂不是在各个节点都会占用大量的内存!而且会产生大量的网络传输,大量的网络通信造成性能的开销。 这种情况下就应该对外部大数据进行Broatcast 广播,然
相关文章
相关标签/搜索