【巨杉数据库Sequoiadb】用pg对500W数据进行group by操做，耗时过长（50秒）

时间 2020-06-11

标签巨杉数据库Sequoiadb 500w 数据进行 group 耗时过长 50秒栏目 SQL 繁體版

原文原文链接

【用户咨询】
用sequoiasql-postgresql建立一个关联表，存入500W数据。在建立索引的状况下，用pg进行简单的group by查询，平均耗时是50秒，是否能够进一步优化？
【问题描述】
1.集群部署状况
三台主机对应一个分区组，每台主机均部署有coord、cata、data节点。
2.表属性
一个500w数据的关联表b_qt_swdj和一个800w数据的pg原生表b_qt_swdj1，两个表结构相同，一共39个字段。
3.sample和语句
对关联表执行查询：
①SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj group by sw_scjy_yb;
②SELECT count(1) from b_qt_swdj;
对原生表执行查询：
③SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj1 group by sw_scjy_yb;
④SELECT count(1) from b_qt_swdj1;sql

用db内置sql执行①，耗时57秒。执行②，耗时33秒。 
用pg执行①，耗时50秒。执行②，耗时44秒。

用pg执行③，耗时8秒。执行④，耗时3秒。
4.网络带宽网络

传输数据时约为46MB/S。

5.有关截图见附件《截图三》并发

【解决办法】
SELECT sw_scjy_yb,count(se_scjy_yb) as count FROM b_qt_swdj1 group by sw_scjy_yb;在pg耗时和使用sdb内置sql耗时差很少，都是50S左右。跟pg关系不大。
从pg的访问计划（见截图三）来看，绝大部分耗时也是在select上。
建议一：应该考虑在sdb端对表作分区，提升数据抽取并发度去提升性能。
建议二：对于大表的统计推荐使用SparkSQL做为sql引擎。post