SparkSQL中的三种Join及其具体实现（broadcast join、shuffle hash join和sort merge join）

时间 2019-12-06

标签 sparksql 三种 join 及其具体实现 broadcast shuffle hash sort merge 栏目 SQL 繁體版

原文原文链接

1.小表对大表（broadcast join）将小表的数据分发到每一个节点上，供大表使用。executor存储小表的所有数据，必定程度上牺牲了空间，换取shuffle操做大量的耗时，这在SparkSQL中称做Broadcast Joinweb Broadcast Join的条件有如下几个：sql *被广播的表须要小于 spark.sql.autoBroadcastJoinThreshold 所配

>>阅读原文<<