MapReduce原理及shuffle机制

时间 2021-01-08

标签 hadoop 栏目 Hadoop 繁體版

原文原文链接

一、环形缓冲区 1.数据在环形缓冲区以KV的形式存在，索引和数据同向增长，当增长到缓冲区大小（默认128M）的80%时（只是80%左右，不是必须80%）开始溢写 2.索引占用四个int长度，以一个四元组的形式存在：value的起始位置，key的起始位置，partition值，value的长度。每进一条数据，指针每次向下跳动4个格子，然后补齐上面的值 3.发生在环形缓冲区的排序是对索引的排序，再具体

>>阅读原文<<