Shuffle机制及优化

1. Shuffle机制 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。 Shuffle阶段主要做的事情: map方法处理后得到的一系列新的key/value会先经过Partioner的分区方法,标记分区,然后进入环形缓冲区 在环形缓冲区中进行分区和排序,环形缓冲区左侧写数据,右侧写索引 环形缓冲区默认100m,默认到达80%时溢写,溢写前对数据的key的索引按照字典序,
相关文章
相关标签/搜索