面试题整理(Hive)

1. Hive数据倾斜 缘由 key分布不均匀 业务数据自己的特性 SQL语句形成数据倾斜 解决方法 hive设置hive.map.aggr=true和hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每一个Reduce作部分聚合操做
相关文章
相关标签/搜索