Hive中的全部Join

  1. 内链接:inner join

--join优化:在进行join的时候,大表放在最后面ide

--可是使用 /+streamtable(大表名称)/ 来标记大表,那么大表放在什么位置都行了优化

select /+streamtable(s)/ s.ymd,d.dividendtable

from stocks s inner join dividends d on s.ymd=d.ymd and s.symbol=d.symbolstream

where s.symbol=’aapl’配置

  1. 外链接:left outer join,right outer join,full outer join

把外链接(outer join)中where语句中的过滤条件,放在on语句是无效的。不过对于内链接有效。select

  1. 笛卡尔积:join

join的时候不使用on,而使用where的。map

--笛卡尔积join很缓慢,能够设置hive.mapred.mode=strict来阻止执行引用

hive.mapred.mode=stricttab

  1. 左半开链接:left semi-join(hive不支持右半开链接)

左半开链接(left semi-join)会返回左边表的记录,前提是其记录对于右边表知足on语句中的断定条件。di

select和where语句中都不能引用右边表的字段。

适用场景:

由于hive不支持in...exists结构,因此要使用左半开链接代替.

注意点:

semi-join比inner join更高效

hive不支持右半开链接.

  1. map端join:map-side join

map-side join:hive能够在map端执行链接过程(对于在join时有一个是小表的状况)

使用map-side join,须要配置下: (1)hive0.7版本以前,须要加/*+ mapjoin(表名) */

select /*+ mapjoin(d) */ s.ymd,d.dividend from stocks s join dividends d

on s.ymd=d.ymd and s.symbol=d.symbol

where s.symbol=’AAPL (2)hive0.7版本开始,设置hive.auto.convert.join=true

hive.auto.convert.join=true

hive.mapjoin.smalltable.filsize=25000000 --使用这个优化的小表的大小(单位:字节)--注意:右外链接和全外链接不支持这个优化

备注:

(1). hive的join语句,只支持等值链接。 (2). 注:pig提供的交叉生成功能支持“非等值链接”. (3). hive目前不支持在join 的on子句中使用or。

相关文章
相关标签/搜索