Map和Reduce阶段数据合并的处理

时间 2020-12-23

原文原文链接

在Map阶段处理数据时，由于内存的限制，会把数据先写到文件中，最终会根据数据的多少生成多个文件，每个文件中会按照Reduce的个数分区，每个分区的数据都按照key值顺序排放，Map结束后将多个文件合并为同一个文件，合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据，然后会根据数据的多少写到文件和

>>阅读原文<<