hive.map.aggr、hive.groupby.skewindata执行过程

如果设置hive.map.aggr为true,hive.groupby.skewindata为true,执行流程如下: 会生成两个job来执行group by,第一个job中,各个map是平均读取分片的,在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作,这里就相当于Combiner操作。 在第一次的job中,map输出的结果随机分区,这样就可以平均分到reduce中 在
相关文章
相关标签/搜索