大数据学习笔记14:MapReduce处理流程二

 MapReduce处理流程二   1、另一个流程图          注意点:1.1、可以自定义 分区函数  控制分区行为                       1.2、缓冲区默认排序算法为 快速排序               2、为什么要进行分区?       为了实现并行处理。为了使后面多个 reduce能同时处理数据。       这里分区的目的其实和inputformat 切分数
相关文章
相关标签/搜索