八天学会hadoop (3)

流量统计实战   先复习一波hadoop shuffle的过程 1.map task 过程中会把数据写入到内存中,在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。 2. 接着会进行combine过程(如果设置了combiner了的话) combine本身也是一个reducer 会对写入到磁盘的数据处理,期望减
相关文章
相关标签/搜索