hive.map.aggr、hive.groupby.skewindata执行过程

若是设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程以下:web 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操做,这里就至关于Combiner操做。 在第一次的job中,map输出的结果随机分区,这样就能够平均分到reduce
相关文章
相关标签/搜索