spark shuffle

一、HashShuffle 1.1 未优化的 HashShuffle ​ 步骤: 每个 Mapper Task 都按照 Reducer Task 的数量 n 把不同的 key 对应的数据先写到 n 个 buffer 中,如果 buffer 达到阈值,就溢出到文件中; Reducer Task 抓取所有 Mapper Task 产生的文件。 ​ 缺点: 会产生大量小文件,如果有一共有 1000 个
相关文章
相关标签/搜索