在使用Kylin的时候,最重要的一步就是建立cube的模型定义,即指定度量和维度以及一些附加信息,而后对cube进行build,固然咱们也能够根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就能够进行屡次build,每一次的build会生成一个segment,每个segment对应着一个时间区间的cube,这些segment的时间区间是连续而且不重合的,对于拥有多个segment的cube能够执行merge,至关于将一个时间区间内部的segment合并成一个。下面开始分析cube的build过程。web
以手机销售为例,表SALE记录各手机品牌在各个国家,每一年的销售状况。表PHONE是手机品牌,表COUNTRY是国家列表,两表经过外键与SALE表相关联。这三张表就构成星型模型,其中SALE是事实表,PHONE、COUNTRY是维度表。sql
如今须要知道各品牌手机于2010-2012年,在中国的总销量,那么查询sql为:数据库
SELECT b.`name`, c.`NAME`, SUM(a.count)
FROM SALE AS a
LEFT JOIN PHONE AS b ON a.`pId`=b.`id`
LEFT JOIN COUNTRY AS c ON a.`cId`=c.`id`
WHERE a.`time` >= 2010 AND a.`time` <= 2012 AND c.`NAME` = "中国"
GROUP BY b.`NAME`复制代码
其中时间(time), 手机品牌(b.name,后文用phone代替),国家(c.name,后文用country代替)是维度,而销售数量(a.count)是度量。手机品牌的个数可用于表示手机品牌列的基度。各手机品牌在各年各个国家的销量可做为一个cuboid,全部的cuboid组成一个cube,以下图所示:app
上图展现了有3个维度的cube,每一个小立方体表明一个cuboid,其中存储的是度量列聚合后的结果,好比苹果在中国2010年的销量就是一个cuboid。函数
在kylin的web页面上建立完成一个cube以后能够点击action下拉框执行build或者merge操做,这两个操做都会调用cube的rebuild接口,调用的参数包括:工具
Kylin中Cube的Build过程,是将全部的维度组合事先计算,存储于HBase中,以空间换时间,HTable对应的RowKey,就是各类维度组合,指标存在Column中,这样,将不一样维度组合查询SQL,转换成基于RowKey的范围扫描,而后对指标进行汇总计算,以实现快速分析查询。整个过程以下图所示:性能
主要的步骤能够按照顺序分为几个阶段:ui
这一步的操做会新建立一个hive外部表,而后再根据cube中定义的星状模型,查询出维度和度量的值插入到新建立的表中,这个表是一个外部表,表的数据文件(存储在HDFS)做为下一个子任务的输入。编码
在前面步骤,hive会在HDFS文件夹中生成数据文件,一些文件很是大,一些有些小,甚至是空的。文件分布不平衡会致使随后的MR做业不平衡:一些mappers做业很快执行完毕,但其它的则很是缓慢。为了平衡做业,kylin增长这一步“从新分配”数据。首先,kylin获取到这中间表的行数,而后根据行数的数量,它会从新分配文件须要的数据量。默认状况下,kylin分配每100万行一个文件。spa
在这一步是根据上一步生成的hive中间表计算出每个出如今事实表中的维度列的distinct值,并写入到文件中,它是启动一个MR任务完成的,它关联的表就是上一步建立的临时表,若是某一个维度列的distinct值比较大,那么可能致使MR任务执行过程当中的OOM。
这一步是根据上一步生成的distinct column文件和维度表计算出全部维度的子典信息,并以字典树的方式压缩编码,生成维度字典,子典是为了节约存储而设计的。每个cuboid的成员是一个key-value形式存储在hbase中,key是维度成员的组合,可是通常状况下维度是一些字符串之类的值(例如商品名),因此能够经过将每个维度值转换成惟一整数而减小内存占用,在从hbase查找出对应的key以后再根据子典获取真正的成员值。
计算和统计全部的维度组合,并保存,其中,每一种维度组合,称为一个Cuboid。理论上来讲,一个N维的Cube,便有2的N次方种维度组合,参考网上的一个例子,一个Cube包含time, item, location, supplier四个维度,那么组合(Cuboid)便有16种:
建立一个HTable的时候还须要考虑一下几个事情:
在Kylin的Cube模型中,每个cube是由多个cuboid组成的,理论上有N个普通维度的cube能够是由2的N次方个cuboid组成的,那么咱们能够计算出最底层的cuboid,也就是包含所有维度的cuboid(至关于执行一个group by所有维度列的查询),而后在根据最底层的cuboid一层一层的向上计算,直到计算出最顶层的cuboid(至关于执行了一个不带group by的查询),其实这个阶段kylin的执行原理就是这个样子的,不过它须要将这些抽象成mapreduce模型,提交Spark做业执行。使用Spark,生成每一种维度组合(Cuboid)的数据。Build Base Cuboid Data;Build N-Dimension Cuboid Data : 7-Dimension;Build N-Dimension Cuboid Data : 6-Dimension;……Build N-Dimension Cuboid Data : 2-Dimension;Build Cube。
建立完了HTable以后通常会经过插入接口将数据插入到表中,可是因为cuboid中的数据量巨大,频繁的插入会对Hbase的性能有很是大的影响,因此kylin采起了首先将cuboid文件转换成HTable格式的Hfile文件,而后在经过bulkLoad的方式将文件和HTable进行关联,这样能够大大下降Hbase的负载,这个过程经过一个MR任务完成。
将HFile文件load到HTable中,这一步彻底依赖于HBase的工具。这一步完成以后,数据已经存储到HBase中了,key的格式由cuboid编号+每个成员在字典树的id组成,value可能保存在多个列组里,包含在原始数据中按照这几个成员进行GROUP BY计算出的度量的值。
更新cube的状态,其中须要更新的包括cube是否可用、以及本次构建的数据统计,包括构建完成的时间,输入的record数目,输入数据的大小,保存到Hbase中数据的大小等,并将这些信息持久到元数据库中。
这一步是否成功对正确性不会有任何影响,由于通过上一步以后这个segment就能够在这个cube中被查找到了,可是在整个执行过程当中产生了不少的垃圾文件,其中包括:
至此整个Build过程结束。