大主子表关联的性能优化方法

时间 2020-06-13

原文原文链接

【摘要】
主子表是数据库最多见的关联关系之一，最典型的包括合同和合同条款、订单和订单明细、保险保单和保单明细、银行帐户和帐户流水、电商用户和订单、电信帐户和计费清单或流量详单。当主子表的数据量较大时，关联计算的性能将急剧下降，在增长服务器负载的同时严重影响用户体验。做为面向过程的结构化数据计算语言，集算器 SPL 可经过有序归并的方法，显著提高大主子表关联计算的性能。下面就来乾学院一探究竟：大主子表关联的性能优化方法。html

1、原理解释

所谓主子表关联计算，就是针对主表的每条记录，按关联字段找到子表中对应的一批记录。以订单（主表）和订单明细（子表）为例，二者以订单ID为关联字段。下图显示了关联计算过程当中对主表中一条记录的处理状况，红色箭头表明没找到对应记录（不可关联），绿色箭头表明找到了对应记录（可关联）：java

假设订单（主表）有m条记录，订单明细（子表）有n条记录，在不考虑优化算法时，主表中每一条记录的关联都须要遍历子表，相应的时间复杂度为O(n)。而主表一共有m条记录，因此整个计算的复杂度就是O(m*n)，显然太高。虽然数据库通常会采用hash方案来优化，但在数据量较大或较多表关联时，仍然会面临时难以并行、使用外存缓存数据的问题，性能依旧会急剧降低。linux

而对于集算器来讲，针对大主子表关联算法，能够经过两步来实现显著优化：数据有序化、归并关联。程序员

l 数据有序化算法

对主表和子表，首先分别按照关联字段排序，造成有序数据。数据库

l 归并关联编程

首先在主表和子表上分别用指针指向第一条记录，而后开始比对，对于主表的第一条记录，若是子表遇到匹配的记录，则表示能够关联，记录后子表指针前移；若是遇到不匹配的记录，表示主表第一条记录的关联计算完成，此时子表指针不动，主表指针下移一位，指向第二条记录。以此类推……windows

优化后，单条记录的关联计算可用下图示意：缓存

能够看到，通过优化，主表中单条记录的关联只需比对部分数据，再也不须要遍历子表。事实上，对主表全部记录的关联，才会遍历一次子表，也就是复杂度为O(n)。再加上主表自己会遍历一次，所以整个计算的复杂度就是O(m+n)。性能优化

这样，通过集算器优化后，算法的时间复杂度变为线性，并且再也不须要生成落地的中间数据，性能天然获得大幅提高。

固然，须要注意的是，有序化自己也会耗费时间，所以这种优化方法不适合只作一次的关联算法。但在实际业务中，关联算法一般会反复执行，这时有序化的开销就是一次性的，彻底能够忽略不计。

2、具体实现

下面仍是以订单和订单明细为例，说明集算器优化大主子表关联的方法。

首先进行数据有序化（注意，这是一次性动做）。集算器脚本“数据有序化.dfx”以下：

A1链接Oracle数据源，A5关闭数据源。集算器可链接大部分经常使用数据源，包括数据库、Excel、阿里云、SAP等等。

A二、B2：用SQL语句分别取订单和订单明细，并按关联字段排序。因为数据量较大，没法一次性读入内存，所以这里用到了游标函数cursor。

A三、B3：分别建立组表文件“订单.ctx”和“订单明细.ctx”，用于存储有序化以后的数据。这里须要指定字段名，其中带#号的字段是主键，。数据将按主键排序，且主键的值不可重复。

A4-B4：将游标追加写入组表文件。

其次，对于一般会反复执行的关联算法，能够用集算器脚本“归并关联.dfx”实现以下：

A一、B1：读入组表文件“订单.ctx”和“订单明细.ctx”。注意组表默认为列式存储，所以只需读入后续计算须要的字段，从而大幅下降I/O。

A2：对有序游标A一、B1进行归并关联，其中“主表”、“子表”是别名，方便后续引用，若是省略别名，后续能够经过默认别名_一、_2引用。注意，函数joinx默认进行内关联，可用选项@1指定左关联，或者@f指定全关联。若是有多个游标都要与A1关联，可用分号依次隔开。

A3：对关联结果进行后续计算，例如汇总产品数量。事实上后续计算能够支持任意算法，也不是本文的讨论范围了。

上面介绍了集算器SPL脚本的写法，而在实际执行时，还须要部署集算器的运行环境。有两种部署方式可供选择：内嵌部署和独立部署。

l 内嵌部署

内嵌部署时，集算器的用法相似内嵌数据库，应用系统使用集算器驱动（JDBC）执行同一个JVM下的集算器脚本。

下面是Java调用“归并关联.dfx”的代码

在上述JAVA代码中，集算器脚本以文件的形式保存，调用语法相似存储过程。而若是脚本很简单，也能够不保存脚本文件，直接书写表达式，调用语法相似SQL，这时第5行能够写成：

这篇文章详细介绍了JAVA 调用集算器的过程：http://doc.raqsoft.com.cn/esproc/tutorial/bjavady.html

除了使用Java代码，也能够经过报表访问集算器，这时按照访问通常数据库的方法便可，具体可参考《让Birt报表脚本数据源变得既简单又强大》。

对于脚本“数据有序化.dfx”，能够用一样的方法执行。不过这个脚本一般只执行一次，因此也能够直接在命令行中执行，windows用法以下：

Linux 下用法相似，能够参考http://doc.raqsoft.com.cn/esproc/tutorial/minglinghang.html

l 独立部署

独立部署时，集算器的用法相似远程数据库，应用系统可使用集算器驱动（JDBC或ODBC驱动）访问集算服务器。这种状况下，应用系统和集算器服务器一般部署在不一样的机器上。

例如集算服务器的IP地址为192.168.0.2，端口号为8281，那么JAVA应用系统能够经过以下代码访问：

关于集算服务器的部署和使用，详细内容可参考http://doc.raqsoft.com.cn/esproc/tutorial/fuwuqi.html

关于JDBC和ODBC驱动的部署方法，可分别参考

http://doc.raqsoft.com.cn/esproc/tutorial/jdbcbushu.html

http://doc.raqsoft.com.cn/esproc/tutorial/odbcbushu.html

3、多线程优化

前面介绍了基本的优化思路和实现方法，也就是针对数据自己的优化。而现实中服务器都是多核心CPU，所以能够进一步对上述算法进行多线程优化。

多线程优化的原理，是将主表和子表各分为N段，使用N个线程同时进行关联计算。

原理虽简单，但真正实现的时候，就会发现不少难题：

l 分段效率

想把数据分为N段，就要先找到每一段的起始行号，若是用遍历的笨办法数行号，显然会白白消耗大量的I/O资源。

l 数据跨段

理论上，关联字段值相同的子表记录，应该分到同一段。若是对子表随意分段，极可能造成跨段的数据。

l 分段对齐

更进一步，理论上，子表的第i段数据，应该与主表的第i段数据对齐，也就是主子表关联字段值的范围应该一致。若是二者各自独立分段，则可能致使分段数据难以对齐。

l 二次计算

若是后续计算不涉及聚合，例如只是过滤，那么只需将N个线程的计算结果直接合并。但若是后续计算涉及聚合，好比sum或分组汇总，那就要单独再进行二次计算聚合。

好在集算器已经充分解决了上述难题，分段时不会耗费IO资源、关联字段值相同的记录会分在同一段、子表和主表会保持对齐、各类二次计算无需单独实现。

具体来讲，首先，数据有序化脚本须要作以下修改（红色字体为修改部分）：

B3：生成“订单明细多线程.ctx”时，数据按“#订单ID”分段。这将保证订单ID相同的记录，未来会分到同一段。

归并关联的脚本需修改以下：

A1：@m表示对数据分段，造成多线程游标（也叫多路并行游标）。其中线程数量是默认值，由系统参数“最大并行数”决定，也可手工修改。例如但愿生成4线程游标，A1应写成：

B1：一样生成多线程游标，并与A1的多线程游标对齐。

A2-A3：归并关联，再执行后续算法。这两步写法上没变化，但底层会自动进行多线程合并和二次计算，从而下降了程序员的编程难度。

4、结构优化

在前面算法的基础上，还能够进一步提高计算性能，那就是以层次结构存储数据，直接记录关联关系。

具体来讲，先用“结构优化有序化.dfx”生成组表文件：

B4：在主表的基础上附加子表，命名为订单明细。与主表不一样的是，子表默认继承了主表的主键，所以能够省略订单ID，只须要写另外一个主键产品ID。这样，2个表写在了一个组表文件中，从而才能造成层次结构。

B5：向子表写入数据。

此时，组表“多层订单.ctx”将按层次结构存储，逻辑示意图以下：

能够看到，每条主表记录与对应的子表记录，在逻辑上已经紧密相关，无需额外关联，这样即可大幅提升关联算法的性能。

进行关联计算时，使用如下脚本“结构优化归并关联.dfx”：

A一、B1：打开主表，以及附加在主表上的子表。

A二、B2：以多线程方式分别读取主表和子表。须要注意的是，多层组表里的实表之间自然具有相关性，所以无需特地指定子表和主表的分段关系，代码比以前更清晰简单。

A3，A4：归并关联并执行后续算法，这两步没变化。

5、数据更新

前面的优化方式都基于库表全量导出为组表文件的状况，但实际业务中数据库表总会发生变化，所以须要考虑数据更新的问题，也就是要将变化的数据定时更新到组表文件中。

显然，更新数据应选择在无人查询组表文件时进行，通常都是半夜或凌晨。而更新的频率，则须要按照数据实时性要求来设定，例如天天一次或每周一次。至于更新的方式，须要按照数据的变化规律来考虑，最多见的是数据追加，有时也会遇到增删改。

下面先看数据追加：

订单和订单明细天天都会产生新记录，假设须要在天天凌晨2点将昨天新增的记录追加到组表文件中。下图显示了2018/11/23新增记录的状况，注意，有些订单（订单ID：20001）并无对应的订单明细：

把主子表追加到组表文件中的脚本 “追加组文件.dfx”以下：

A二、B2：计算昨天的起止时间，以便查询新增数据。函数now获取当前时间点，理论上应该是2018-11-24 02:00:00。A2是昨天的起始时间点，即2018-11-22 00:00:00。B2是终止时间点，即2018-11-23 00:00:00。之因此在集算器中计算起止时间，主要是为了增长可读性和移植性。实际上也能够在SQL中计算。

A4：取出新增的主表和子表记录。这里用一句SQL取两张表的数据，主要是为了提升效率。因为有些订单并无对应的订单明细，所以用订单左关联订单明细，且将对应不上的订单明细置空。计算结果以下：