Spark SQL有关broadcast join的不生效问题

大数据计算一般会存在大表join小表的状况,若是相对较小的表容许广播到各个executor的话,可使用广播方式mapjoin,这样还能够避免数据倾斜。html 平时看文档记着有个参数是:node spark.sql.autoBroadcastJoinThreshold 10485760 (10 MB) Configures the maximum size in bytes for a table
相关文章
相关标签/搜索