重磅 | 数据库自治服务DAS论文入选全球顶会SIGMOD

时间 2021-07-03

原文原文链接

简介：近日，智能数据库和DAS团队研发的智能调参ResTune系统论文被SIGMOD 2021录用，SIGMOD是数据库三大顶会之首，是三大顶会中惟一一个Double Blind Review的，其权威性毋庸置疑。

近日，智能数据库和DAS团队研发的智能调参ResTune系统论文被SIGMOD 2021录用，SIGMOD是数据库三大顶会之首，是三大顶会中惟一一个Double Blind Review的，其权威性毋庸置疑。算法

ResTune论文的录用，说明了咱们在智能化数据库管控方向的技术积累和深度，也是阿里云自治数据库和智能化运维里程碑式的一步。目前，智能调参功能已经在数据库自治服务（DAS）上落地，是业界第一个正式上线的数据库配置参数智能调参功能，进一步说明了阿里云自治数据库方向的技术领先性。数据库

1. 概述后端

调参服务在阿里丰富的业务场景中有着普遍的应用，如数据库系统的性能与配置参数优化、机器学习模型/深度神经网络的超参选择、推荐系统和云调度系统中参数的自适应调节、工业控制和供应链中的仿真优化和参数优化等。如何在生产环境中支持客户实际需求，是学术界AI for system的一个研究热点。数组

今年，由达摩院-数据库与存储实验室-智能数据库团队研发的ResTune智能调参工做（ResTune: Resource Oriented Tuning Boosted by Meta-Learning for Cloud Databases，地址：安全

https://dl.acm.org/doi/pdf/10.1145/3448016.3457291__），主要针对OLTP数据库系统的性能参数进行调优，涉及RDS MySQL、RDS PostgreSQL、PolarDB MySQL、PolarDB-O等数据库系统，该工做发表在数据库领域的顶级会议SIGMOD2021(Research Track)，并在阿里云数据库自治服务DAS产品中技术落地。性能优化

2. 背景网络

数据库系统如MySQL提供200多个配置参数，不一样的参数组合与不断变化的业务负载特征，共同决定着数据库系统的性能和资源使用。针对集团内的业务，一般DBA会根据不一样的业务，按人工经验手动选择一组适合的参数。随着数据库上云的加速，业务愈来愈多样化，仅仅依赖于DBA人工调参遇到水平扩展的瓶颈制约。同时，因为DBA经验的差别性，很难对多种多样的业务负载都找出最优参数。云厂商要作到“客户第一”，自动化的调参功能相当重要：在不一样的实例环境下对时间上不断变化的多样业务负载，自适应的提供个性化的优化参数。架构

数据库系统调参须要同时考虑性能(如Transactions per second/TPS、Latency)和资源使用(CPU、Memory、IO)的状况。性能优化当然重要，但真实负载的TPS每每受用户的request rate所限，很难达到峰值性能。图1是两个参数下不一样取值的TPS和CPU利用率，能够看到，在TPS最高的红色区域对应的CPU利用率变化较大，从15%到75%。而在TPS相同的状况下，资源利用率有很大优化空间。从成本角度，TCO(Total Cost of Ownership)是云数据库的重要指标，也是云数据库的主要优点。app

优化资源使用对减小云数据库的TCO，提升成本优点有着重要意义。事实上，咱们发现云上大多数实例都存在Over-Provision的状况。此外，资源使用太高可能会形成云数据库的异常和资源争抢带来的性能降低；优化数据库的资源使用可以有效减小甚至避免此类状况引起的故障，提升稳定性。运维

3. 挑战

咱们分析了调参的目标是同时考虑优化资源使用率和性能，上文也提到性能如TPS每每会被客户端的request rate所限而达不到峰值性能。所以，咱们须要找出资源利用率最小的数据库配置参数，而且知足SLA的要求。

另外一方面，调参自己须要尽量快（否则违背了下降资源使用），一般的调参系统须要上百步迭代来找出好的配置，每一步迭代约3-5分钟回放workload，这样一般须要天级别的时间进行调参训练。但若是想解决在线troubleshoot的需求，每每须要在1个小时内找出问题，进行恢复。做为云厂商，咱们基于已有业务负载调参的历史数据，采用知识迁移学习，可有效加速调参过程，从而尽量快地找出好的数据库参数配置。

4. 相关工做

数据库调参是最近研究相对热门的领域，在过去几年中有很多工做发表。这些工做按照技术思路主要能够分为三大类：基于搜索的启发式方法、基于贝叶斯优化的方法、基于强化学习(Reinforcement Learning)模型的方法。

基于搜索的启发式方法：该类方法一般基于启发式思路，经过给定的规则算法进行搜索来找出优化参数，这一工做的表明是BestConfig[3]系统。这类方法依赖于对workload以及参数对性能影响的先验假设，但在实际中特别是云场景，每每很难为每一个workload进行特殊优化和特征工程。这类方法在搜索一组新参数的时候，没有考虑到以前采样到数据的分布，所以效率不高。

基于贝叶斯优化的方法：该类方法的表明是iTuned[4]和CMU的Andy Pavlo实验室的SIGMOD17工做OtterTune[5]。贝叶斯优化将调参看做是一个黑盒优化问题，经过代理函数模拟参数和目标间的函数，并设计采集函数来最小化采样步数。这类方法没有考虑以优化资源为目标的调参，只考虑了优化峰值性能。在实际中，除了压测和大促的极端场景，一般用户对TPS是无感的，TPS每每达不到峰值，所以仅考虑性能做为目标还不够。OtterTune系统还提出了基于Internel Metric（数据库状态表的指标）的mapping的方案来利用已有数据，这种mapping方法利用来自同一硬件类型的历史数据，没有充分利用云厂商丰富的数据资源。另外一方面，这种方式依赖于预测出来的Internel Metric的类似性计算，在数据点较少的状况下容易不许确。

基于强化学习的方法：这类方法是最近数据库调参的热门方向，主要包括SIGMOD18的工做CDBTune[6]和VLDB19的QTune[7]工做。经过将Internal Metrics(state)到Knobs(action)的关系抽象成一个policy neural network和一个value network来反馈，将数据库调参问题转化成一个马尔科夫决策过程，不断地自我训练，学习出最优参数。一方面，这类工做没有考虑优化资源。另外一方面，更重要的是调参问题并非一个带状态的马尔科夫决策过程，由于参数直接决定了数据库性能，不须要复杂的状态空间，不一样于强化学习须要经过解bellman equation来优化模型累计得到的Reward。在这些工做中，每每须要上千步迭代找出好的参数，这难以知足咱们在生产环境中进行调参的要求。

5. 问题定义和算法概述

咱们将问题定义成带限制的优化问题以下，其中限制条件常数可经过设定为默认配置参数下的TPS和Latency值。

ResTune将最优化资源使用并知足SLA转化成带限制的优化 (Constrained Bayesian Optimization) 问题。相比于传统的贝叶斯优化算法，这里采用了带限制的 EI 函数 (Constrained EI, CEI)，咱们将限制信息加入了经常使用的 EI 效用函数(Acqusition Function)。详见论文的第五章内容。

另外一方面，为了更好地利用已有数据，ResTune还设计了静态权重和动态权重相结合的高斯加权模型。经过ensemble历史的高斯过程模型，加权平均出目标workload的surrogate函数。这里最核心的问题是如何定义权重。

在冷启动时（没有观察数据时），静态权重学习会根据任务工做负载的 meta-feature 距离分配权重。meta-feature 的计算须要经过工做负载的分析，获得工做负载特征向量。

当积累了必定数据（如10条数据）后，ResTune使用动态权重学习策略，经过偏序关系（以下图所示，尽管TPS绝对值不一样，可是曲面趋势相同，所以偏序关系也相似），比较历史学习器的预测与目标任务的真实观察结果之间的类似程度。使用动态分配策略，权重会随着对目标工做负载的观察次数的增长而动态更新。经过这两种策略，ResTune最终获得了一个元学习器(Meta-Learner)，它能够做为经验丰富的代理模型，更多的细节能够参考论文的第六章内容。

6. ResTune系统设计

ResTune将调参问题抽象成带限制的优化问题，即最小化资源使用率，同时知足SLA的限制。下图给出了ResTune的系统架构设计。ResTune 系统包括两个主要部分：ResTune Client 和 ResTune Server。

ResTune Client 运行在用户VPC环境中，负责目标任务的预处理和推荐参数配置的执行，由 Meta-Data Processing 模块和 Target Workload Replay 模块组成。
ResTune Server 运行在后端调参集群中，负责在每次训练迭代中推荐参数配置，包括 Knowledge Extraction 模块和 Knobs Recommendation 模块。

一次调参任务中的一个迭代步流程以下：当一个调参任务开始后，系统首先对目标数据库进行拷贝，并收集一段时间内的目标工做负载到用户环境用于将来的回放。

在每一轮迭代中，目标任务首先经过 Meta-Data Processing 模块获得 meta-feature 与 base model，做为 Knowledge Extraction 模块的输入；Knowledge Extraction 模块负责计算当前任务与历史任务 base model 集成时的静态与动态权重，并对 base models 进行加权求和获得 meta model；在 Knobs Recommendation 模块根据 Meta Learner 推荐一组参数配置；Target Workload Replay 模块对推荐参数进行验证，并将结果写入目标任务的历史观察数据。

以上训练过程重复若干迭代步，当达到最大训练步或提高效果收敛时终止。目标任务训练结束后，ResTune会当前任务的 meta-feature 与观察数据收集到 Data Repository 做为历史数据。

每一个模块的具体功能以下：

Meta-Data Processing: 在调参任务初始启动时，元数据处理模块分析目标任务的工做负载，使用 TF-IDF 方法统计 SQL 保留字做为目标任务的特征向量 (meta-feature)；在每轮迭代中，元数据处理模块以历史观察数据为输入，通过归一化处理后，对资源(CPU, memory, IO等)利用率、TPS、Latency 拟合高斯模型，做为目标任务的基模型。

Knowledge Extraction: 为了提取与利用历史知识，咱们提出了采用高斯模型加权求和的集成方式，即元模型 M 的关键参数 u由基模型加权计算获得。在计算基模型权重时采用了静态与动态两种方式。在初始化时，权重的计算采起静态方式，以特征向量做为输入，经过预训练的随机森林，获得资源利用率的几率分布向量，最终以据几率分布向量之间的距离做为任务类似性，决定静态权重。当数据量充足后，ResTune使用动态权重学习策略，比较基学习器的预测与目标任务的真实观察结果之间的类似程度。使用动态分配策略，权重会随着对目标工做负载的观察次数的增长而更新。经过这两种策略，咱们最终获得元学习器，它能够做为经验丰富的代理模型。

Knobs Recommendation: 参数推荐模块根据元模型推荐一组参数配置；采集函数咱们使用了带限制的 EI 函数 (Constrained EI, CEI)，其根据限制状况重写了 EI 的效用函数：当参数不知足 SLA 限制时效用置0，且当前最佳参数定义为知足 SLA 限制的最佳参数。CEI 采集函数可以更好的引导探索知足限制的最优区域。

Target Workload Replay: 目标工做负载回放模块首先推荐参数应用在备份数据库上，并触发工做负载的回放，通过一段时间的运行验证后，验证结果（包括资源利用率、TPS、latency）与推荐参数将一块儿写入目标任务的观察历史。

7. 实验评测

咱们在多个场景下对比了 ResTune 和其它 SOTA (state-of-the-art)系统的性能与速度。

7.1. 单任务场景

首先，在单任务场景下，咱们选定CPU利用率做为优化目标，验证了 ResTune 解决带 SLA 限制的优化问题的效果。这里咱们测试了Sysbench、Twitter、TPC-C和两个真实的workload：Hotel Booking和Sales。能够看出，ResTune方法在全部负载上均可以获得最佳效果与最佳效率。

7.2. 迁移场景

因为云数据库上存在大量用户各类实例，所以咱们提出的方法可否在不一样工做负载、不一样硬件之间迁移相当重要。一样以CPU利用率做为优化目标，咱们测试了不一样机器硬件之间的迁移效果，能够看到咱们提出的元学习算法带来了显著的训练速度提高和训练效果提高。使得整个ResTune的调参过程能在30-50步左右完成，而非迁移场景一般须要几百个迭代步。

相似的，在不一样工做负载之间的迁移实验中，咱们的元学习方法也带来了显著的训练速度提高。

7.3. Memory和I/O资源优化

除CPU资源外，咱们测试了内存资源、IO资源的调参优化效果。下图能够看出，对于IO资源优化调参任务，ResTune 下降了 84% - 90% IOPS；对于内存资源优化调参任务，ResTune 将内存利用从 22.5G 降低至 16.34G。咱们在论文中还估算了TCO的成本减小。

8. DAS业务落地

智能调参技术在DAS(Database Autonomy Service)产品上进行了落地。咱们分为不一样阶段和细化功能进行上线。主要包括模板功能和基于压测的智能调参功能。阿里云是业界第一个上线调参功能的厂商，领先于腾讯和华为。

8.1. 模板参数功能

模板参数功能是咱们一期上线的调参场景。在此以前，云上RDS MySQL数据库仅有一套统一的参数模板，这很难知足云上各不相同的用户业务负载。所以，咱们选取了不一样种类的benchmark，在用户使用最频繁的RDS Instance类型上调参的离线训练。

咱们将用户负载分为典型的6种场景如交易、社交网络、压测等，经过离线训练咱们给每一种典型场景训练出了最优配置，并提供给用户根据其业务特征进行选择。这样咱们将以前的RDS的统一一套参数模板扩展到了多种典型的OLTP业务场景。

下表列出了咱们离线调参训练的结果，在不一样workload上有13%-50%的提高。这里咱们以TPS性能做为优化目标。

Workload名称	RDS默认配置下的TPS	调参后的TPS	提高百分比
TPCC（订单处理）	620	940	<span>↑52%</span>
Smallbank（银行业务处理）	17464	22109	<span>↑26.6%</span>
Sysbench（压力测试）	7950	10017	<span>↑26%</span>
Twitter（社交网络）	41031	48946	<span>↑19.2%</span>
TATP（通讯）	18155	21773	<span>↑19%</span>
YCSB（压力测试）	41553	55696	<span>↑34%</span>
Wikipedia（知识百科）	600	678	<span>↑13%</span>

8.2. 基于压测的智能调参功能Cloudtune 以上基于模板参数功能验证了云上用户对智能调参功能的需求。事实上，除了特别专业的用户，大部分用户较难很是准确地把握其业务特征。所以，用户没法选出最合适其workload特色的一组参数模板。为了解决用户痛点，咱们在DAS上线了基于压测的智能调参功能。主要经过收集并回放用户真实workload（在用户VPC环境进行保证安全性），来针对用户业务负载，定制化地训练出性能最优的参数配置。这个功能咱们叫作Cloudtune智能调参。如前文ResTune的架构设计，咱们首先须要在用户VPC环境准备一个用户数据库RDS目标实例，而后启动一个压测肉机进行用户环境真实workload的回放，并采集目标实例上的性能数据进行调参训练。DAS Master用户打通线上VPC环境和后端网络环境。后端DAS App负责调参的主控逻辑，主要操做在用户VPC环境的回放压测，从而获取相应Metric（资源使用率、TPS、Latency等），而后经过调用Cloudtune Microservice来进行迭代训练，Cloudtune Service经过算法模型给出下一个采样配置和目前为止找出的最好配置参数。

9. 将来工做 目前上线的调参功能是经过拉库回放的方式，对用户来讲是一种离线的操做，且相对繁琐。咱们正在为帮用户简化去这个过程进行在线动态调参。在线动态调参技术的挑战和要求更高，首先，参数调节效果要求稳步提高，不能让系统运行时出现性能猛烈的降低，不能影响线上实时的服务；其次，为了保证线上稳定性和调节过程快速收敛，在线动态调参须要针对不一样的workload自动选择关键的相关参数进行调节；最后，目前的工做假设用户负载变化不频繁，一旦用户负载变化就须要从新进行调参。为了提升用户体验，要结合workload的检测支持自适应的调参服务。 10. 智能数据库其余研究工做简介 智能数据库团队以数据库运维和内核智能化为主要方向，深度融合人工智能、机器学习和数据库专家经验，使数据库具有自治能力，实现自感知、自优化、自修复与自安全，保障服务的稳定、安全及高效。对外提供业内首个智能数据库管控平台Database Autonomy Service (DAS) 。相关工做还包括异常SQL检测之大海捞针、一键智能压测与基于压缩感知的数据库生成、采样算法和SQL workload外置优化、图多模数据异常检测与根因诊断、索引推荐、冷热数据分离、基于实例知识图谱的智能调度、NLP2SQL人机交互接口、计算平台一体化、One-sided RDMA内存池化系统研发等。例如，DAS团队在VLDB2020上发表的工做Leaper[2]有效地进行数据预取和Cache淘汰，解决了LSM-Tree存储引擎架构的性能抖动，是学术界将机器学习模型集成到在OLTP数据库内核的重要尝试。最近DAS基于统计与医疗数据分析中的生存分析设计了全新的冷热数据分层算法，集成至Polar X Engine中，测试显示性能提高10%，存储成本降低25%。一样在VLDB2020年发表的慢SQL诊断工做，DAS解决了海量SQL请求中近90%的CPU密集型的异常问题。 参考文献 [1] Zhang, Xinyi, Hong Wu, Zhuo Chang, Shuowei Jin, Jian Tan, Feifei Li, Tieying Zhang, and Bin Cui. "ResTune: Resource Oriented Tuning Boosted by Meta-Learning for Cloud Databases." In Proceedings of the 2021 International Conference on Management of Data, pp. 2102-2114. 2021. [2] Yang, Lei, Hong Wu, Tieying Zhang, Xuntao Cheng, Feifei Li, Lei Zou, Yujie Wang, Rongyao Chen, Jianying Wang, and Gui Huang. "Leaper: a learned prefetcher for cache invalidation in LSM-tree based storage engines." Proceedings of the VLDB Endowment 13, no. 12 (2020): 1976-1989. [3] Y.Zhu,J.Liu,MengyingGuo,YungangBao,WenlongMa,ZhuoyueLiu,Kunpeng Song, and Yingchun Yang. 2017. BestConfig: tapping the performance potential of systems via automatic configuration tuning. Proceedings of the 2017 Symposium on Cloud Computing (2017). [4] SongyunDuan,VamsidharThummala,andShivnathBabu.2009.TuningDatabase Configuration Parameters with ITuned. Proc. VLDB Endow. 2, 1 (Aug. 2009), 1246–1257. [5] Dana Van Aken, Andrew Pavlo, Geoffrey J. Gordon, and Bohan Zhang. 2017. Automatic Database Management System Tuning Through Large-scale Machine Learning. In Acm International Conference on Management of Data. 1009–1024. [6] Ji Zhang, Yu Liu, Ke Zhou, Guoliang Li, Zhili Xiao, Bin Cheng, Jiashu Xing, Yangtao Wang, Tianheng Cheng, Li Liu, Minwei Ran, and Zekang Li. 2019. An End-to-End Automatic Cloud Database Tuning System Using Deep Reinforce- ment Learning. In Proceedings of the 2019 International Conference on Management of Data (Amsterdam, Netherlands) (SIGMOD ’19). Association for Computing Ma- chinery, New York, NY, USA, 415–432. [7] Guoliang Li, Xuanhe Zhou, Shifu Li, and Bo Gao. 2019. QTune. Proceedings of the Vldb Endowment (2019) [8]Tan, J., Zhang, T., Li, F., Chen, J., Zheng, Q., Zhang, P., ... & Zhang, R. (2019). ibtune: Individualized buffer tuning for large-scale cloud databases. Proceedings of the VLDB Endowment, 12(10), 1221-1234. * 7月7日14点 数据库自治服务DAS年度重磅发布DAS自治胜似闲庭信步数据库自动驾驶进入规模化时代扫描 下图二维码或点击“ 这里”预定观看直播

> 本文内容由阿里云实名注册用户自发贡献，版权归原做者全部，阿里云开发者社区不拥有其著做权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。若是您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将马上删除涉嫌侵权内容。