spark优化总结

一、注意join的使用,若是有较小的表可考虑使用广播的方式实现mapjoin,相似MR/HIVE。广播变量是一个executor一份副本java 二、注意数据倾斜的问题,这个问题在分布式shuffle操做时都有可能出现,常见几个场景:缓存 join操做空值量不少时使用随机值 cout(distinct)操做,拆分红group by 再count 对数据采样抽取出倾斜的key,单独处理,最后作uni
相关文章
相关标签/搜索