Impala在处理结果集较大的查询的优势

时间 2021-01-18

原文原文链接

近期运营出报表，查询的数据量为15年的数据量，涉及的表及表中记录数如下图所示：刚开始的时候在MySQL中进行查询汇总，选择第一个数据量最小的表，发现MySQL 出现内存溢出，数据库使用的是腾讯云上的一台CDB，内存大小为24GB。后来将数据上传到hdfs上使用impala（数据格式为PARQUET）来查询，发现效果要好于MySQL，我们的impala是一个3节点集群，内