MapReduce原理及shuffle机制

一、环形缓冲区 1.数据在环形缓冲区以KV的形式存在,索引和数据同向增长,当增长到缓冲区大小(默认128M)的80%时(只是80%左右,不是必须80%)开始溢写 2.索引占用四个int长度,以一个四元组的形式存在:value的起始位置,key的起始位置,partition值,value的长度。每进一条数据,指针每次向下跳动4个格子,然后补齐上面的值 3.发生在环形缓冲区的排序是对索引的排序,再具体
相关文章
相关标签/搜索