数据倾斜

目录 1 什么是数据倾斜? 2 导致数据倾斜的原因 2.1 单个值有大量记录 2.2 唯一值较多 1 什么是数据倾斜? 如图所示: 简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。 举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若
相关文章
相关标签/搜索