性能调优之在实际项目中广播大变量

如果说,task使用大变量(1m~100m),明知道会导致性能出现恶劣的影响。那么我们怎么来解决呢? 广播,Broadcast,将大变量广播出去。而不是直接使用。     刚才说的这种随机抽取的map,1M,举例。还算小的。如果你是从哪个表里面读取了一些维度数据,比方说,所有商品品类的信息,在某个算子函数中要使用到。100M。 1000个task。100G的数据,网络传输。集群瞬间因为这个原因消耗
相关文章
相关标签/搜索