Spark性能调优之广播大变量

    本篇blog讲述在实际spark项目中可能需要注意的一个性能调优的一个点,就是broadcast大变量。     默认的在spark作业中,task执行的算子中,使用了外部的变量,每个task都会获取一份变量的副本,有什么缺点呢?<br>map,本身是不小,存放数据的一个单位是Entry,还有可能会用链表的格式的来存放Entry链条。所以map是比较消耗内存的数据格式。比如,map是1M。
相关文章
相关标签/搜索