Apache kylin概览

时间 2019-11-06

原文原文链接

1、Apache kylin的核心概念

表（Table ）：表定义在hive中，是数据立方体（Data cube）的数据源，在build cube 以前，必须同步在 kylin中。
模型（model）:模型描述了一个星型模式的数据结构，它定义了一个事实表（Fact Table： Wiki:Fact_table）和多个查找表（Lookup Table：Wiki:Lookup_table）的链接和过滤关系。
立方体（Cube）：它定义了使用的模型、模型中的表的维度（dimension:Wiki:dimension）、度量（measure:Wiki:measure ,通常指聚合函数，如：sum、count、average等）、如何对段分区（ segments partition）、合并段（segments auto-merge）等的规则。
立方体段（Cube Segment）：它是立方体构建（build）后的数据载体，一个 segment 映射hbase中的一张表，立方体实例构建（build）后，会产生一个新的segment，一旦某个已经构建的立方体的原始数据发生变化，只需刷新（fresh）变化的时间段所关联的segment便可。
做业（Job）：对立方体实例发出构建（build）请求后，会产生一个做业。该做业记录了立方体实例build时的每一步任务信息。做业的状态信息反映构创建方体实例的结果信息。如做业执行的状态信息为RUNNING 时，代表立方体实例正在被构建；若做业状态信息为FINISHED ，代表立方体实例构建成功；若做业状态信息为ERROR ，代表立方体实例构建失败！做业的全部状态以下：

NEW - This denotes one job has been just created.
PENDING - This denotes one job is paused by job scheduler and waiting for resources.
RUNNING - This denotes one job is running in progress.
FINISHED - This denotes one job is successfully finished.
ERROR - This denotes one job is aborted with errors.
DISCARDED - This denotes one job is cancelled by end users.

2、Apache kylin的工做机制

Apache kylin 能提供低延迟（sub-second latency）的秘诀就是预计算，即针对一个星型拓扑结构的数据立方体，预计算多个维度组合的度量，而后将结果保存在hbase中，对外暴露JDBC、ODBC、Rest API的查询接口，便可实现实时查询。web

数据立方体通常由Hive中的一个事实表,多个查找表组成。预计算的过程在kylin中就是 Cube 的build过程，以下图：算法

当前Apache kylin构建（build）数据立方体，采用逐层算法（By Layer Cubing）。将来的发布中将采用快速立方体算法（Fast Cubing）。下面简单介绍一下逐层算法：sql

一个完整的数据立方体，由N-dimension立方体，N-1 dimension立方体，N-2维立方体，0 dimension立方体这样的层关系组成，除了N-dimension立方体，基于原数据计算，其余层的立方体可基于其父层的立方体计算。因此该算法的核心是N次顺序的MapReduce计算。数据结构

在MapReduce模型中，key由维度的组合的构成，value由度量的组合构成，当一个Map读到一个key-value对时，它会计算全部的子立方体（child cuboid），在每一个子立方体中，Map从key中移除一个维度，将新key和value输出到reducer中。直到当全部层计算完毕，才完成数据立方体的计算。过程以下图：架构

在数据立方体计算完毕后，有一个任务（Convert Cuboid Data to HFile），其职责是将reduce输出的运算结果（Cuboid Data）转化成Hbase中的存储载体（HFile），最终将HFile 加载到Hbase表中便于查询。其中表的rowkey由维度组合而成，维度组合对应的度量值构成了column family，为了查询减小存储空间，会对RowKey和column family的值进行编码，默认编码是Snappy。整个数据立方体的构建流程以下：app

3、Apache kylin的架构及核心组件

Apache kylin 架构以下：函数

核心组件：ui

数据立方体构建引擎（Cube Build Engine）：当前底层数据计算引擎支持MapReduce一、MapReduce二、Spark等。
Rest Server：当前kylin采用的rest API、JDBC、ODBC接口提供web服务。
查询引擎（Query Engine）：Rest Server接收查询请求后，解析sql语句，生成执行计划，而后转发查询请求到Hbase中，最后将结构返回给 Rest Server。