druid查询上手总结

时间 2019-12-06

原文原文链接

由于业务的须要，接触了关于数据库链接池druid的查询，由于对于这方面的生疏，刚刚开始的时候为了快速上手，仅仅局限于使用。由于不多接触大数据，对于里面的一些概念理解不透彻走了很多的弯路，一周时间的探索，如今终于也有了一个比较正确的认识，因此在这里开篇作一个总结。

0x00 引言

从什么角度去理解druid其实很重要，做为一个前端，一开始我只是把druid当成一个工具来理解，当成是一个以json为查询方式、链接数据库的链接池。结合同事以前编写的代码，致使了我只想知道两个重点：javascript

特定的查询类型，相应地须要什么样的查询条件组合，首先知道哪些条件是必须的，好组合起来把代码先跑起来；
使用什么查询类型，会返回什么样的格式的数据？

因而我翻开了文档，把要用的查询方式（timeseries、topN、GroupBy、Time Boundary、Segment Metadata、Datasource Metadata、select、search、scan）都过了一遍，总计9种查询，每种查询都是不一样的查询条件而且返回不一样格式的数据，毫无疑问很是崩溃……大脑很是抵触这种记忆的方式，因而我前几天不断地往返于文档和代码之间，很是低效。html

我开始意识到我如今不能想着赶忙把需求作完，而是应该跳到一个更高的层面去理解druid，因而我带着几个疑问从新开始学习了一遍druid前端

druid是什么？
druid到底解决了什么问题，带来了什么好处？
druid带来(或实现)了什么概念？

0x01 OLAP

首先从文档中的概览能够知道，druid是一款高性能、面向列的分布式存储，专门为实时数据和历史数据提供亚秒级别的查询而设计。主要用于统计数据的商业智能（OLAP）查询，而且可以支持快速的多维过滤，特设属性分组，以及极快的聚合。java

其次须要了解一个关键词OLAP，我的理解druid是对OLAP的具体实现，概念来自于此。数据库

联机分析处理OLAP是一种软件技术，它使分析人员可以迅速、一致、交互地从各个方面观察信息，以达到深刻理解数据的目的。它具备FASMI(Fast Analysis of Shared Multidimensional Information)，即共享多维信息的快速分析的特征。其中F是快速性(Fast)，指系统能在数秒内对用户的多数分析要求作出反应；A是可分析性(Analysis)，指用户无需编程就能够定义新的专门计算，将其做为分析的一部分，并以用户所但愿的方式给出报告；M是多维性(Multi—dimensional)，指提供对数据分析的多维视图和分析；I是信息性(Information)，指能及时得到信息，而且管理大容量信息。 -- 百度百科

其实很好理解，当面对庞大的数据要作分析的时候，观察一些局部琐碎的点实际上没有太大的意义，咱们应该要总结一套高效通用的方法去分析，好比分时间点的数据采集，以及对数据的进行聚合，去研究趋势，而OLAP定义了一整套这样便于分析的体系。编程

对于数据，咱们把它当成是个多维度的超立方体，分析者能够经过不一样的维度观察数据。json

维度(Dimension): 指的是观察数据的一个角度，是考虑问题的一类属性，这些属性的集合统称为一个维。
维的级别(Level): 对数据的观察还存在细节程度的不一样，在druid中通常表示为时间的粒度(granularity)，好比一秒，一分钟，一小时，一天……
度量(Measure): 度量是用来聚合分析计算的数字信息，在druid中称为"metrics",它能够是存储在数据库中，也能够是经过策略计算得出的。好比一篇文章的点击数、或者是根据评论数、点击数、转发数计算出的热点值

对于查询到的数据，定义了如下操做缓存

向下钻取(Drill-down)/上卷(Roll-up): 改变维的层次和级别，变换分析的粒度。Roll-up在于提高维的级别或者减小维度来聚合数据，展示总览，Drill-down反之，下降维的级别(或者称粒度)或增长维度来查看细节。
切片(slice)和切块(dice): 当维度为两个时，咱们对获取数据(查询)的操做称之为切片，当维度的数量大于两个时，咱们称之为切块。
旋转(Pivoting): 变换维的方向，例如表格中的行列互换。

这时候咱们再回过头来看druid，已经再也不茫然。分布式

0x02 druid

如今咱们返回来看druid数据，全部的查询都围绕时间的维度。工具

timestamp	publisher	advertiser	gender	country	click	price
2011-01-01T01:01:35Z	bieberfever.com	google.com	Male	USA	0	0.65
2011-01-01T01:03:63Z	bieberfever.com	google.com	Male	USA	0	0.62
2011-01-01T01:04:51Z	bieberfever.com	google.com	Male	USA	1	0.45
2011-01-01T01:00:00Z	ultratrimfast.com	google.com	Female	UK	0	0.87
2011-01-01T02:00:00Z	ultratrimfast.com	google.com	Female	UK	0	0.99
2011-01-01T02:00:00Z	ultratrimfast.com	google.com	Female	UK	1	1.53

一段数据中包含了三个组件：

timestamp column: 首先它是围绕着时间轴查询的，因此在OLAP中的定义默认第一个维度就是timestamp，
diamension columns: 维度列（在druid中将timestamp撇开当成一个特殊的个体，剩余的称之为维度），通常为字符串类型，用于过滤数据以及数据聚合分组的依据。（publisher、advertiser、gender、country）
metric columns: 度量列，一般是数值，通常用于聚合数据中的计算和聚合后的数值展示。(click, price)

数据分片

druid能够以（数据源-时间范围-版本号-段号）结合为一个维度配合时间戳对数据进行切片，这样的一个单元称之为段(segment)

好比咱们为了观察一篇文章点击量上升的趋势，咱们每隔一个小时灌入一次数据，所以产生了两个分段

段sampleData_2011-01-01T01:00:00:00Z_2011-01-01T02:00:00:00Z_v1_0

timestamp	publisher	advertiser	gender	country	click
2011-01-01T01:00:00Z	ultratrimfast.com	google.com	Male	USA	1800
2011-01-01T01:00:00Z	bieberfever.com	google.com	Male	USA	2912

段sampleData_2011-01-01T02:00:00:00Z_2011-01-01T03:00:00:00Z_v1_0

timestamp	publisher	advertiser	gender	country	click
2011-01-01T02:00:00Z	ultratrimfast.com	google.com	Male	USA	2200
2011-01-01T02:00:00Z	bieberfever.com	google.com	Male	USA	3309

上卷（rollup）

如今咱们要看每一个时间段内产生的点击量的总和。咱们假设每一个分段内，只采集了一次数据，时间点相同，基于timestamp 作一次rollup，因而产生了两条数据，点击数产生了一次聚合。

timestamp	click
2011-01-01T01:00:00Z	4712
2011-01-01T02:00:00Z	5509

0x03 查询(query)

咱们已经将用到的基本概念都过了一遍，如今是时候落地到查询了。druid的原生查询语言是JSON，固然各大开源社区的贡献使其也支持了其余语言的查询，包括SQL。

druid的查询分为三大类，分别是聚合查询，元数据查询以及普通查询

普通的查询包括

聚合查询

元数据查询

咱们也不通篇过文档了，普通的查询没什么好讲的，只有一个须要注意的点，那就是select在查询大量的数据的时候，很消耗内存，若是没有分页的需求，能够用scan替代。

元数据的查询，主要不是基于业务的查询，而是对当前表的属性，或者是定义列的类型这一类属性的查询，好比xxx表中"country"是什么类型的数据，xxx表收集数据起止时间，或者当前分段的版本是什么之类的信息。

主要须要理解的是三种内置的聚合查询，本质上作的操做是这样的

timeseries: 时序查询，实际上便是对数据基于时间点(timestamp)的一次上卷。适合用来看某几个度量在一个时间段内的趋势。排序可按时间降序或升序。
topN: 在时间点的基础上，又增长了一个维度(OLAP的概念算两个维度)，进而对源数据进行切片，切片以后分别上卷，最后返回一个聚合集，你能够指定某个指标做为排序的依据。官方文档称这对比单个druid dimension 的groupBy 更高效。适合看某个维度下的时间趋势，（好比美国和中国十年内GDP的增加趋势比对，在这里除了时间外国家就是另一个维度）
GroupBy: 适用于两个维度以上的查询，druid会根据维度切块，而且分别上卷，最后返回聚合集。相对于topN而言，这是一个向下钻取的操做，每多一个维度意味着保留更多的细节。(好比增长一个行业的维度，就能够知道美国和中国十年内，每年不一样行业贡献GDP的占比)

查询的条件

DataSource 查询的数据源
Filter: 对Dimension进行过滤，能够根据状况对几个维度组合不一样的filter类型(and、or、not、bound)，还能够根据须要定义javascript function进行过滤。
Aggregations: 指定度量在聚合时候的计算策略，例如相加、或者求平均值、又或者取最后一个值，在内置类型不知足的状况下可使用javascript。好比某手游中我统计了我每一局击杀小怪数量，以及野怪的数量，经过聚合策略sum，我能知道我从开号以来击杀了多少小怪和野怪。
Post Aggregations: 后聚合策略，提供了多个度量组合生成新度量的能力，主要有利于聚合计算的抽象，避免对一些指标的重复计算。举个例子，假如我须要一个度量，是我击杀小怪和野怪的总和，那么，我只须要在后聚合阶段计算，只须要拿小怪和野怪的数量相加一次，大大地提升了计算效率。
Granularities: 查询的时间粒度，最细粒度为秒，最大粒度为all，提供了时间维度级别的调整并对数据进行上卷和向下钻取的能力。
DimensionSpec: 提供了维度在聚合前输出展现值定制的能力，好比在Dimension age一列中，拿到的是字符串类型的数字，我但愿转成数字类型，又或者定制一个javascript function，统一以 ${age} year old的形式展示。
context: 表示对当前查询自己的一些配置，好比设置查询超时的时间，又好比是否使用缓存，在通用的配置基础上，每种查询类型还有特定的配置，详见文档

0x04 总结

学习druid的过程，最大的收获其实并非掌握druid自己，而是学到了他贯彻的OLAP的一些概念，从一开始的毫无所知，带着一点线索向上探索，到慢慢知晓通篇，真是一个有趣的过程，实际上懂了OLAP，很快也能掌握其余数据库的查询，真正作到了举一反三，带着这套思路相信很快也能上手SQL了，开心😊。但愿能对你们上手起到帮助吧，共勉！