Hive数据翻倍总结

问题:spa 1.数据源数据重复。。很难发现。。依赖关系。。统计 2. 原本8千万的数据和8千万的数据一下left outer join后,变成了30亿。。按道理仍是8kw。总结 3. 8千万大表和几十行的小表join,数据严重倾斜,到99.99%就是reduce不完。。最终OOM了。数据 总结以下:join 1. 数据源问题:  统计前,首先检查各个数据源表,看是否有重复记录,多是数据源的问题。
相关文章
相关标签/搜索