hive的数据倾斜以及优化策略

1. hive的数据倾斜  介绍:只要在分布式必定有shuffle,避免不了出现数据倾斜,在混淆数据的过程当中出现数据分布不均匀。好比:在MR编程中reducetask阶中的数据的大小不一致,即不少的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜 maptask reducetask最后就是reducetask阶段的数据倾斜。   不会产生数据倾斜的场景
相关文章
相关标签/搜索