MapReduce之Shuffle详解

Shuffle机制 概念:主要是Map阶段之后,Reduce阶段之前对数据的分区、排序、合并、分组过程 分区(Partition) 概述:为了将不同类型的内容输出到不同文件中,进行分类存储。 默认分区: HashPartitioner根据key的hashCode对ReduceTasks个数取模得到的进行分区,用户不能进行设置。 底层原理 : (key.hashCode() & Integer.MA
相关文章
相关标签/搜索