Hive开启mapjoin优化、并行执行、动态分区

时间 2020-07-20

标签 hive 开启 mapjoin 优化并行执行动态分区栏目 Hadoop 繁體版

原文原文链接

1. mapjoin优化适合小表join大表sql

set hive.optimize.skewjoin=true; //有数据倾斜时开启负载均衡，默认false
set hive.auto.convert.join=true; //设置自动选择MapJoin，默认是true
set hive.auto.convert.join.noconditionaltask=true; //map-side join
set hive.auto.convert.join.noconditionaltask.size=100000000; //多大的表能够自动触发放到内层LocalTask中，默认大小10M
set hive.mapjoin.smalltable.filesize=200000000; //设置mapjoin小表的文件大小为20M，小表阈值

2. 开启并行执行并发

set hive.exec.parallel=true; //能够开启并发执行
set hive.exec.parallel.thread.number=16; //同一个sql容许最大并行度，默认为8。

3. 开启动态分区负载均衡

set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;

1. hive的mapjoin执行流程
2. Hive mapjoin的执行计划解读
3. Mapjoin执行流程
4. hive优化（1）之mapjoin
5. Hive中mapjoin优化例子
6. hive执行语句优化
7. Hive语句执行优化－简化UDF执行过程
8. hive 启动方式及执行流程
9. hive开启本地模式执行
10. Hive MapJoin
更多相关文章...
• IP地址分配（静态分配+动态分配+零配置） - TCP/IP教程
• MyBatis SqlSession和Mapper接口执行Sql - MyBatis教程
• PHP开发工具
• 算法总结-归并排序