Hadoop中的MapReduce的shuffle过程及调优

时间 2021-07-11

标签 hadoop学习笔记 Hadoop MapReduce shuffle 机制调优栏目 Hadoop 繁體版

原文原文链接

概述 Shuffle，即混洗、洗牌，顾名思义就是对数据打乱重新分配。Shuffle发生在Map输出至Reduce的输入过程之间。主要分为两部分 Map任务输出的数据进行分组、合并、排序，并写入本地磁盘 Reduce任务拉取数据进行合并、排序 Shuffle过程 Map端 Map端输出时，会先将数据写入内存的环形缓冲区，默认大小100M，可通过参数设置当缓冲区的内容大小达到阈值（默认0.8

>>阅读原文<<