Spark 3.0 - AQE浅析 (Adaptive Query Execution)

一、前言 近些年来,在对Spark SQL优化上,CBO是最成功的一个特性之一。 CBO会计算一些和业务数据相关的统计数据,来优化查询,例如行数、去重后的行数、空值、最大最小值等。 Spark根据这些数据,自动选择BHJ或者SMJ,对于多Join场景下的Cost-based Join Reorder(能够参考以前写的这篇文章),来达到优化执行计划的目的。 可是,因为这些统计数据是须要预先处理的,会
相关文章
相关标签/搜索