sparkSQL数据倾斜

场景一:java 大表join小表: 把小表broadcast,和cache 到内存,而且大表加了distribute by rand()sql 而后在spark-submit中加一个conf:spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小,单位为字节,只要表大小小于此取值(此处约为200m),且被执行过cache table的小表
相关文章
相关标签/搜索