百亿级数据处理优化

时间 2020-06-06

原文原文链接

最近在作大数据处理时，遇到两个大表 join 致使数据处理太慢（甚至算不出来）的问题。咱们的数仓基于阿里的 ODPS，它与 Hive 相似，因此这篇文章也适用于使用 Hive 优化。处理优化问题，通常是先指定一些经常使用的优化参数，可是当设置参数仍然不奏效的时候，咱们就要结合具体的业务，在 SQL 上作优化了。为了避免增长你们的阅读负担，我会简化这篇文章的业务描述。sql 问题这是一个离线数据处

>>阅读原文<<