04性能调优之广播大变量

问题分析 Spark Application的Driver进程,其实就是我们写的Spark作业打成的jar运行起来的进程,以随机抽取map步骤为例,其工作时过程大致为:  这种默认的情况下,task执行的算子中使用了外部的变量,每个task都会获取一份变量的副本,有什么缺点呢?在什么情况下会出现性能上的恶劣的影响呢? 因为map本身是不小,存放数据的一个单位是Entry,还有可能会用链表的格式的来
相关文章
相关标签/搜索