Spark---性能调优之广播共享数据

假设有一个map,1M,举例。还算小的。如果你是从哪个表里面读取了一些维度数据,比方说,所有商品品类的信息,在某个算子函数中要使用到。100M。 1000个task。100G的数据,网络传输。集群瞬间因为这个原因消耗掉100G的内存。 每个task拷贝一个变量的副本会造成什么样的影响? 这种默认的,task执行的算子中,使用了外部的变量,每个task都会获取一份变量的副本,有什么缺点呢?在什么情况
相关文章
相关标签/搜索