八天学会hadoop (3)

时间 2021-01-15

原文原文链接

流量统计实战先复习一波hadoop shuffle的过程 1.map task 过程中会把数据写入到内存中，在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。 2. 接着会进行combine过程(如果设置了combiner了的话) combine本身也是一个reducer 会对写入到磁盘的数据处理，期望减