Data Lake Analytics(简称DLA)在构建第一天就是支持直接关联分析Table Store(简称OTS)里的数据,实现存储计算分离架构,知足用户基于SQL接口分析Table Store数据需求。html
玩转DLA+OTS:https://ots.console.aliyun.com/index#/demo/cn-hangzhou/dla
王烨:DLA如何分析Table Store的数据java
DLA控制台:https://openanalytics.console.aliyun.com/算法
这是DLA与Table Store在生态中的关系,做为存储计算分离架构,DLA负责主要的SQL算子计算,而Table Store则负责部分计算(由DLA下推下来)和核心存储功能。sql
目前,Table Store的宽数据表结构(https://help.aliyun.com/document_detail/89879.html)中的列, 主要分红两部分:主键(全部主键都不可改,也不为空;其中第一主键是物理分区键),非主键列(可改可覆盖可为空,无关紧要):数据库
假设有张表tbl(主键:pk1,pk2;非主键:col1,col2),当DLA收到这样的SQL时:架构
select pk2,col1 from tbl where pk1 = 123 and pk2 >= '2019-01-10' and col2 = 'zzz'
DLA就会基于Table Store的SDK接口下发相关的查询:less
1)查询tbl表数据,其中只查询pk二、pk三、col3这几个列;函数
2)按照pk1作分区裁剪,只下推查询到pk1=123所在的分区;
3)下推 pk1 =12三、pk2 >='2019-01-10'和col4 ='zzz' 这三个条件;
4)若是当前分区的数据很大,则会切分出多个分片,并行查询;性能
这里,最关键的条件就是 pk1 =123,DLA基于这个第一主键(分区键)条件来筛选OTS的目标分区而后下发查询条件。其余支持的分区条件有测试
比较条件:>,>=,=,<,<=,!= 范围条件:[1,20], (2,10), (-∞,10], (20,+∞)等
针对上面的表结构,若是遇到以下的SQL:
select pk2,pk3,col3 from tbl where pk2 >= '2019-01-10' and col4 = 'zzz'
由于pk1并无出如今条件中,没法作分区裁剪,所以目前DLA会先将整个TableStore的表切好分片,而后下推其余条件,并行获取每一个分片的数据并作计算。这样的问题就是:
不管是计算成本仍是延时,都会影响客户的体验。
而多元索引是基于倒排索引(https://en.wikipedia.org/wiki/Inverted_index)来设计和实现的:
所以,DLA全面升级了,支持直接以SQL方式访问Table Store的多元索引(https://help.aliyun.com/document_detail/91974.html)
从而来加速查询。
对DLA的客户来讲,只需一步,就可使用DLA来访问Table Store的多元索引。由于目前统计信息采集及优化器等缘由,暂时还不支持自动判断多元索引,因此须要利用DLA的hint来主动开启(DLA的hint机制:https://zhuanlan.zhihu.com/p/55068247):
/*+ ots-index-first=<相关的索引开关> */ select * from tbl1 where ...
其中,索引开关有几种模式:
/*+ ots-index-first=auto */ select * from tbl1 where ...
/*+ ots-index-first=[tbl1, dla_schema2.tbl2, ...] */ select * from tbl1 join dla_schema2.tbl2 join dla_schema3.tbl3 where ...
/*+ ots-index-first=threshold:200 */ select * from tbl1 where ... /*+ ots-index-first=threshold:5% */ select * from tbl1 where ...
另外,早期客户给DLA作的角色受权策略里并无这些新增的多元索引接口,所以老客户须要从新给DLA作跨云服务访问的角色受权,戳这里>>>
虽然Table Store多元索引很好用,但他也不是银弹,须要合理的使用。有几个场景的约束:
固然,针对传统数据库的索引中的一些特性,在DLA中也尽可能采纳进来,好比Covering Index(http://literatejava.com/sql/covering-indexes-query-optimization/) 来避免随机查询主表,DLA和Table Store也支持,好比这样的SQL:
-- pk1, pk2是主键,col1,col2是非主键列,索引是idx_col1_col2 select pk1, col1 from tbl where col2 = 21
这里col1和col2都在索引中,而pk1和pk2也间接在索引中,所以这个SQL彻底能够在索引上完成过滤和输出,从而避免回主表查询。
除了多元索引以外,目前Table Store团队也在积极地推广二级索引(https://help.aliyun.com/document_detail/91935.html),帮助用户更好的使用Table Store。将来DLA也会将这块能力集成进来,这样DLA能够帮助用户在主表、二级索引表、多元索引表之间最优化选择,帮助客户提高性能而且下降成本。
将来,DLA须要实现预先采集更多的统计信息,免去用户主动添加hint的麻烦,彻底自动化的选择和路由,作到真正的数据库体验。
将来,DLA还须要下推更多的计算到Table Store上,实现更好的”近存储计算“,好比聚合能力下推、函数下推、支持全文索引等等,让用户使用DLA+Table Store得到更好的体验。
本文做者:Roin
本文为云栖社区原创内容,未经容许不得转载。