SparkSQL中的三种Join及其具体实现(broadcast join、shuffle hash join和sort merge join)

1.小表对大表(broadcast join) 将小表的数据分发到每一个节点上,供大表使用。executor存储小表的所有数据,必定程度上牺牲了空间,换取shuffle操做大量的耗时,这在SparkSQL中称做Broadcast Joinweb Broadcast Join的条件有如下几个:sql *被广播的表须要小于 spark.sql.autoBroadcastJoinThreshold 所配
相关文章
相关标签/搜索