百亿级数据处理优化

最近在作大数据处理时,遇到两个大表 join 致使数据处理太慢(甚至算不出来)的问题。咱们的数仓基于阿里的 ODPS,它与 Hive 相似,因此这篇文章也适用于使用 Hive 优化。处理优化问题,通常是先指定一些经常使用的优化参数,可是当设置参数仍然不奏效的时候,咱们就要结合具体的业务,在 SQL 上作优化了。为了避免增长你们的阅读负担,我会简化这篇文章的业务描述。sql 问题 这是一个离线数据处
相关文章
相关标签/搜索