Hive数据倾斜问题

什么是数据倾斜 MapReduce中,相同Key的Value都给了一个reduce,如果个别key数据较多,而其他key的较少,就出现了数据倾斜。有的map很快,有的reduce很慢。Hive执行是分阶段的.Map的处理数据量差异取决于上一个stage的reduce输出,如果在map端,有的job很快,有的很慢,就出现了数据倾斜。 数据倾斜的情况 1)连接join: a)小表与大表,小表key集中
相关文章
相关标签/搜索