[大牛翻译系列]Hadoop(14)MapReduce 性能调优:减少数据倾斜的性能损失

6.4.4 减少数据倾斜的性能损失 数据倾斜是数据中的常见状况。数据中不可避免地会出现离群值(outlier),并致使数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有如下几类:html 数据频率倾斜——某一个区域的数据量要远远大于其余区域。 数据大小倾斜——部分记录的大小远远大于平均值。 在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样化的数据
相关文章
相关标签/搜索