007.hive上亿级别的表关联调优

时间 2019-12-06

原文原文链接

环境：公司决定使用宽表，将10个相关的大表进行全量关联程序员

（1个上亿级别的表，5个上千万的表，剩下的表都不到百万的表） sql

花了两天的时间研究，测试 apache

例如： a~g这几个表中，a表为上亿级别的表，5个上千万的表，剩下为表都百万的表函数

select a.uesrid,b.citycode,b.register_num,  ...  ,g.active_num 
from
(select userid,citycode from a)
left outer join
(select userid,register_num from b)
on (a.userid=b.userid)
...
left outer join
(select userid,active_num from g)
on (a.userid=b.userid)

你会发现
最后一个job异常慢，而且reduce为1。 oop

也多人会说，你傻逼呀，设置reduce数呀，对这是一个好办法，可是结果如何呢？性能

#设置传输格式
set mapred.output.compress=true;  
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
#设置200个reduces
set mapred.reduce.tasks=200; 
#设置并行（甚至还。。。设置并行）    
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=16; //同一个sql容许最大并行度，默认为8

草，我就是按照网上各类教程，测试了一成天，仍是最后一个reduce为1；（我但是上亿级别噢！！！）学习

hive自动分配reduce的计算方法测试

1. hive.exec.reducers.bytes.per.reducer（默认为1000^3） spa

2. hive.exec.reducers.max（默认为999） code

计算reducer数的公式很简单：

N=min(参数2，总输入数据量/参数1)

而后查询得知：

reduce为1，是由于：

没有使用group by
使用了order by
笛卡尔积

我TM都使了一遍，仍是reduce=1，我当时很无语，就尼玛不能再作清楚一点吗？（我但是小白呀！！！）

时间：3个小时都没跑完，一直都是83%

因此hadoop，看到了这个语句，就会分配一个reduce

如何欺骗hive分配reduce呢？

而后修改脚本（固然上面的设置reduce数这个不能少噢）

# 如何欺骗hive多分配reduce
select a.uesrid,b.citycode,sum(b.register_num),  ...  ,sum(g.active_num)  # 求聚合函数
from
(select userid,citycode from x)     # x,y表示这几个表中最小的一个表
full outer join
(select userid,unregister from ｙ)     # x,y表示这几个表中最小的一个表
on (x.userid=y.userid)        # （可交替的设置 y.userid=b.userid）
full outer join 
(select userid,register_num from b)
on (x.userid=b.userid)         # 关联条件，都用小表进行关联
...
right outer join
(select userid,active_num from a)  # 最大的表放在最后
on (y.userid=a.userid)     # （可交替的设置 y.userid=b.userid）
group by a.userid,b.citycode;   # 最后进行group by

使用聚合函数，加 group by
而后小表放在前面（有人说：我TM要全部的信息，那你就用全链接呗）
而后大表通常就日后排，从小到大，一顺排下来就行

这样就能欺骗hive分配多个reduce，达到调优的效果

时间：15分钟不到，兴奋到高潮了吗？哈哈

缺点：

生成200个文件，比较麻烦
设置并行，对性能要求有点高，因此适度设置并行数量就行

并行参数，仅作参考

当参数为false的时候,三个job是顺序的执行

set hive.exec.parallel=false;

可是能够看出来其实两个子查询中的sql并没有关系,能够并行的跑

set hive.exec.parallel=true;

hive> set hive.exec.parallel.thread.number; （若是机器通常，能够并行设置3，感受比较合理）

hive.exec.parallel.thread.number=8 默认并行数为8

过高兴了，做为一个程序员，要求不高：电脑高配，作的事情有挑战，而且花几天时间能调通，就知足勒

乐于分享交流，但愿能帮到像我同样遇到此困难的人，呵呵

it技术的进步，不就是这样相互交流共享学习吗？

呵呵，那么。。。你作到吗？

007.hive上亿级别的表关联 调优

007.hive上亿级别的表关联调优