Spark---性能调优之广播共享数据

时间 2021-01-04

原文原文链接

假设有一个map，1M，举例。还算小的。如果你是从哪个表里面读取了一些维度数据，比方说，所有商品品类的信息，在某个算子函数中要使用到。100M。 1000个task。100G的数据，网络传输。集群瞬间因为这个原因消耗掉100G的内存。每个task拷贝一个变量的副本会造成什么样的影响？这种默认的，task执行的算子中，使用了外部的变量，每个task都会获取一份变量的副本，有什么缺点呢？在什么情况

>>阅读原文<<