Spark-sql Join优化=>(cache+BroadCast)

Spark-sql Join优化 背景   spark-sql或者hive-sql 不少业务场景都会有表关联的的操做,在hive中有map side join优化,对应的在spark-sql中也有map side join。spark中若是在参与join的表中存在小表,能够采用cache broadcast的方式进行优化,避免数据的shuffle,从而必定程度上能够避免数据倾斜,增长spark做业
相关文章
相关标签/搜索