TDSQL“类似查询工具MSQL+”入选VLDB论文

时间 2019-11-18

标签 tdsql 类似查询工具 msql 入选 vldb 论文繁體版

原文原文链接

欢迎你们前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~node

本文由腾讯云数据库 TencentDB发表于云+社区专栏算法

做者介绍：王晓宇，腾讯数据库TDSQL团队成员，目前参与TDSQL数据库内核研发工做。sql

腾讯与高校合做的论文入选数据库顶会

腾讯TDSQL团队携手中国人民大学信息学院、武汉大学计算机学院合做的DEMO论文“MSQL+: a Plugin Toolkit for Similarity Search under Metric Spaces in Distributed Relational Database Systems”被国际数据库顶级会议VLDB 2018录取。数据库

该论文设计了一款基于RDBMS的插件式近似查询工具MSQL+。MSQL+遵循SQL标准，支持面向度量空间（一种比文本空间、向量空间等更为简洁和通用的表达方式）的近似查询，依托分布式数据库系统TDSQL，实现了通用、易用、高效的类似查询处理技术。安全

会议期间，团队展现了基于腾讯分布式数据库TDSQL实现的类似查询工具MSQL+，用于在分布式系统TDSQL中实现类似查询。在TDSQL数据库内部集成更多的计算功能，赋予数据库更为丰富的计算能力。架构

原论文请见http://www.vldb.org/pvldb/vol11/p1970-lu.pdf。论文信息以下：负载均衡

Wei Lu, Xinyi Zhang, Zhiyu Shui, Zhe Peng, Xiao Zhang, Xiaoyong Du, Hao Huang, Xiaoyu Wang, Anqun Pan, Haixiang Li: MSQL+: a Plugin Toolkit for Similarity Search under Metric Spaces in Distributed Relational Database Systems. VLDB 2018 Demonstrationdom

若是您想了解更多技术细节，请参考以下内容（以下重点介绍MSQL+的产生背景、功能、架构、设计）：机器学习

论文解读

如下重点介绍MSQL+的产生背景、功能、架构、设计，原论文请见http://www.vldb.org/pvldb/vol11/p1970-lu.pdf。分布式

MSQL+产生背景

类似查询是诸多数据库应用的基本操做。

举例来讲，类似查询在文本检索、拼写检查、指纹认证、人脸识别等场景做用显著。

那么这些应用是如何进行类似查询的？给出对象q和集合R，返回R中与q类似度相差不超过θ的元素。最直接地，遍历r∈R，计算r与q的类似度，可想而知，此方法效率很低。

各领域已发展出多种方式对上述类似查询方式针对优化，但仍存在如下问题：

1与现有数据库系统剥离：现有的类似查询方法，大量创建新系统或新式索引提升效率，如M-Tree、D-Index、kd-tree等，虽然说性能得以提高，但很难将其融合到现有RDBMS。另有一些方法基于B+-tree实现类似查询，但要在现有RDBMS上开发新API，并且效率表现不佳。这些方法缺乏统一标准、兼容性差，每接触新方法，都要付出额外的学习成本。

2数据空间有限，普适性差：众多应用场景对“类似”的定义不一样，衡量维度、数据类型不一样，难以创建通用的类似查询模型。借助于定制化的剪枝规则，特定场景类似查询性能获得提高，但几乎不可能移植到其余应用场景。做为基本操做，类似查询应该具备普适性，在不一样RDBMS应用中都能保证良好表现。

3仅适用中心化系统，难应对“大数据”场景：大数据时代下，借助于分布式系统维护日益增加的数据是大势所趋。遗憾的是现有的类似查询方式，并未良好地支持分布式系统。

为避免上述问题，MSQL+被设计为：基于RDBMS，遵循SQL标准，借力分布式数据库，以实现通用、易用、高效。在实际生产系统中，MSQL+以腾讯公司的分布式数据库TDSQL为依托，高效地实现了论文提出的思想和功能。

MSQL+主要功能

MSQL+由两大模块组成：

1构建索引：MSQL+为每一个数据对象生成可比较的签名（Signature），并在签名上创建B+-tree索引，签名值位于类似度范围内的对象，做为类似查询的候选项；

2查询处理：用户提交SELECT-FROM-WHERE语句，该语句须提供两个约束条件，分别为：a) 用户定义的类似度函数，b) 类似度范围，条件b)初步筛选候选项，条件a)精炼候选项、返回类似结果集。

相比于现有的类似查询方式，MSQL+具有如下优点：

1基于RDBMS现有功能实现，使用B+-tree索引数据，使用SELECT-FROM-WHERE语句类似查询；

2支持普遍的数据空间：任意类型数据可被合理地索引（见下文设计），经由统一接口类似查询；

3可运行于单机和分布式RDBMS，依托分布式关系数据库系统TDSQL，可以加快预处理及类似查询进程。

MSQL+设计方案

本节将对MSQL+近似查询方案作简单介绍，细节请见原论文。

1. Similarity Search in Metric Spaces

MSQL+采用分治策略，将完整的数据集划分红多个独立的分片，每一个分片筛选出若干较为类似的候选者，这些候选者后续会被二次精选。

MSQL+如何划分数据集？论文说明，数据集内一些对象被选为pivot（下节介绍选举pivot的策略），剩余的数据对象按某种策略分配到惟一的pivot（好比，与之最近的pivot），这些pivot和分配至此的数据对象构成了一个分片。如此，完整的数据集被划分红多个互不相交的小数据集，而后在各分片内筛选较为类似的候选者。

筛选候选者的规则是什么呢？咱们从一个例子入手：给出对象q和数据集R，类似查询返回R中与q相差不超过θ的数据对象。对分区Pi而言，筛选r∈Pi ，且|q,r|≦θ的对象r做为候选者。

定理 1：

对于分区Pi（其pivot为Pi），∀r∈Pi ，|q,r|≦θ的必要条件是：

LBi=|pi, q|-θ≦|pi, r|≦|pi, q|+θ = UBi

Pivot的挑选，是上述过程的基础，那么，MSQL+如何挑选pivot？

2. Pivot Selection

选择合适的pivot，能够加快筛选候选者及精选结果集的过程，论文提出了四种pivot选择方式：

1Random：从集合R中随机挑选对象做为pivot；

2MaxVariance：从集合R中挑选方差最大的一组对象做为pivots；

3MaxProb：pivot需知足，预期筛选出的候选项的个数最少；

4Heuristic：采起相似于k-means的启发式算法，总体上看，各分区中的元素尽可能靠近pivot。

到此，已经能够筛选较为相近的候选者，那么，如何从中精选出更相近的结果集呢？

3. Processing similarity queries in RDBMS

为了快速精选出结果集，MSQL+在数据集上构建B+-tree索引，如下分两步，介绍该索引如何构建、如何使用。

论文作出定义：某表存储了数据集R，表上有M个属性（即M列），部分属性做为类似度的度量，记做A:{ A1, A2, ..., An } n≦M ,对于r∈R ，r[A]表示数据r属性{A1, A2, ..., An}的值。

3.1 Index Building

在A上创建B+-tree索引，有两个条件：a) 域{ A1, A2, ..., An }都是可比较的，b) 只需比较A各域的值便可精选候选项。借助于此索引，可方便地实现类似查询。那么，如何构建这样的索引？论文作出这样的设计：

对于r∈R，一张“签名表”（Signature generation schema）记录了r的签名S(r[A])，S(r[A])=<i, |r, Pi|>，其中i是分区ID，|r, Pi|是分区内数据对象r和pivot Pi的差距，签名的比较规则为：

原表（存储数据集R）上新增一列I记录签名<i, |r, Pi|>，并在I上创建B+-tree索引，此索引知足“可比较”和“比较索引可肯定候选项”两要素，故可借助此索引方便地近似查询。

3.2 Query Processing

至此，已经构建了合适的B+-tree索引，如何利用该索引精选候选者？

MSQL+支持用户自定义类似度函数DIST(r[A], q[A], θ)，此函数判断r[A]和q[A]的距离未超过θ，用户定义类似度函数这一设计，扩展了MSQL+支持的数据空间和类型。有了DIST函数，用户输入SELECT-FROM-WHERE语句形如：

SELECT R.A1,...,R.An

FROM R

WHERE DIST(r[A], q[A], θ)

上面这条SQL，直接从数据集R中精确筛选结果集，效率堪忧。

候选者此时派上用场，定理1（见Similarity Search in Metric Spaces）描述了如何筛选候选者，减小精确筛选的数据量，加速精拣过程。结合定理1和DIST函数，用户输入SELECT-FROM-WHERE语句形如：

SELECT R.A1,...,R.An

FROM R, PivotsRangeSet PRS

WHERE I BETWEEN PRS.LB and PRS.UB AND

DIST(r[A], q[A], θ)

其中，临时表PivotsRangeSet维护了各pivot的LU和UB。由于PivotsRangeSet规模很小，查询优化器总会先索引扫描获得候选项，而后DIST函数精炼结果集。

MSQL+分布式架构

MSQL+既可在本地RDBMS上工做，又可部署在分布式RDBMS。论文给出MSQL+基于TDSQL的架构。

1. System Architecture

1.1 TDSQL介绍

TDSQL是腾讯针对金融联机交易场景推出的高一致性，分布式数据库集群解决方案，可以保证强一致下的高可用，拥有灵活的全球部署架构，实现了倍数性能提高，加强了MySQL原生的安全机制，可以在水平方向上分布式扩展，具备自动化的运营体系和完善的配套设施。

TDSQL由如下关键组件构成：

1Routing Node：负载均衡；

2ZooKeeprt：维护系统元信息，如表、索引、分区等；

3Global Executor：接收SQL、下发local executor、聚集本地结果、生成执行计划等；

4Local executor：本地数据存、取、计算等。

1.2 TDSQL增益

MSQL+是一款由用户自定义函数、存储过程实现的插件式工具，能够无缝融入TDSQL。

MSQL+如何在TDSQL上工做呢？

ZooKeeper维护MSQL+特需的元信息，并同步至各local executors；Global executor接收类似查询请求，分发至各local executors执行，聚集最终结果并给出执行计划；Local executor完成本地分片类似查询，返回执行结果。

TDSQL又能给MSQL+带来什么样的增益？

首先是可靠、可用性，TDSQL实现了多副本强一致性，最大程度地保障MSQL+所需的大量样本数据的安全、可用、可靠。

其次，TDSQL支持水平方向分布式扩展，免除单机存储容量不足的后顾之忧，不管MSQL+样本数据多大，TDSQL均可轻松应对。

TDSQL在安全机制作出的优化，很大程度保证MSQL+样本数据的安全和机密。

咱们最关心的性能问题，从分布式角度看，TDSQL多个本地节点并行查询，全局类似查询效率大幅度提高；具体到本地节点，TDSQL在数据库内核方面作出大量优化，使得单节点效率也有很大提高。

2. Index Building

ZooKeeper维护了所有pivot信息，并由Global executor将pivot信息下发至local executors。 Global executor协调local executors构建索引，每一个local executor维护必定数量的分片，也就维护对应的pivots，基于这些pivots，local executor生成签名S(r[A])，进而构建起索引。

3. Query Processing

用户发起类似查询请求时，routing node选择一个global executor，global executor协调local executors并行执行类似查询，聚集本地执行结果并生成执行计划。

MSQL+界面展现

论文展现的操做界面以下，MSQL+支持类似查询、索引构建、客户端链接、集群管理、数据导入、查询状态显示、执行计划可视化等功能。

结论：

MSQL+是一款基于RDBMS的插件式近似查询工具，基于腾讯TDSQL实现，具备通用、易用、高效的特色：统一接口支持多种数据空间；遵循SQL标准，发起SELECT-FROM-WHERE命令便可完成类似查询任务；MSQL+依托腾讯分布式数据库TDSQL，实现了负载均衡、多点并行，可高效地完成类似查询。

问答
PHP + MSQL +函数在函数中使用请求
相关阅读
TDSQL参加全球数据库顶级盛会 VLDB 2018回顾
 腾讯云数据库MySQL游戏行业数据安全实践分享
 MySQL 8.0 版本功能变动介绍
 【每日课程推荐】机器学习实战！快速入门在线广告业务及CTR相应知识

此文已由做者受权腾讯云+社区发布，更多原文请点击

搜索关注公众号「云加社区」，第一时间获取技术干货，关注后回复1024 送你一份技术课程大礼包！

海量技术实践经验，尽在云加社区！