Hadoop(八)——MapReduce下

1.数据倾斜: 原因: 因为又分区的情况,导致Reduce阶段的ReduceTask处理的数据量不一样,可能有的多有的少,这就产生了数据倾斜的问题。 另外还有可能发生Map阶段的数据倾斜,但是需要满足3个条件:多输入源,文件不可切分,文件大小不均等。 reduce阶段的数据倾斜如何优化? 二阶段聚合: 第一阶段:把数据打散,进行部分聚合 第二阶段:根据分区条件来进行聚合 没有使用二阶段聚合: 每一
相关文章
相关标签/搜索