Broadcast与map进行join,避免shuffle,从而优化spark

适用场景 进行join中至少有一个RDD的数据量比较少(好比几百M,或者1-2G) 由于,每一个Executor的内存中,都会驻留一份广播变量的全量数据 Broadcast与map进行join代码示例 建立RDD val list1 = List((jame,23), (wade,3), (kobe,24)) val list2 = List((jame,cave), (wade,bulls),
相关文章
相关标签/搜索