Apache Kylin 入门系列目录数据库
从 Hive 中导入表定义的具体步骤以下:编程
http://ip:7070/kylin
;导入表定义的界面有一个选择框 Calculate column cardinality,勾选后系统会计算 Hive 表每一列的基数,基数是指数据集中出现的不一样值的个数,例如“国家”是一个维度,若是有 200 个不一样的值,那么此维度的基数就是 200。架构
点击 “Models” 选项卡,能够看到项目已建立的 Models 以及 Cubes,点击 “+ New” 按钮,选择 “New Model” 便可打开建立 Model 的窗口。因为数据模型的差别,本文不介绍具体的案例,下面将主要介绍建立 Model 过程当中遇到的各类概念。post
Model Info 主要是填写 Model 的基本信息,其中 “Model Name” 是必填项,模型名称有两点须要注意:优化
Data Model 主要是构建总体的数据模型,不管你的数据是星型模型或者是雪花模型,须要在这个地方创建数据表之间的关系。网站
创建数据模型的第一步是选择事实表,选择完成后点击 “Add Lookup Table” 按钮设置事实表与维度表之间的关系。 this
对 “Add Lookup Table” 页面的几点说明:编码
Skip snapshot for this lookup table
选项指的是是否跳过生成 snapshotTable,因为某些 Lookup 表特别大(大于 300M),若是某一个维度的基数比较大 ,可能会致使内存出现 OOM,因此在建立 snapshotTable 的时候会限制原始表的大小不能超过配置的一个上限值(kylin.snapshot.max-mb
,默认值300);经过上述的操做便可将事实表以及维度表联系起来,构成一个数据模型。设计
在 Dimensions 页面选择可能参与计算的维度,这里被选择的只是在 Cube 构建的时候拥有被选择资格的维度,并非最后参与 Cube 构建的维度,推荐将维度表中的字段都选择上。3d
通常而言,日期、商品种类、区域等会做为维度。
在 Measures 页面选择可能用于计算的度量。
通常而言,销售额、流量、温湿度等会做为度量。
在 Settings 页面能够设置分区以及过滤条件,其中分区是为了系统能够进行增量构建而设计的,目前 Kylin 支持基于日期的分区,在 “Partition Date Column” 后面选择事实表或者维度表中的日期字段,而后选择日期格式便可;过滤条件设置后,Kylin 在构建的时候会选择符合过滤条件的数据进行构建。
须要注意的几点:
time/date/datetime/integer
等;WHERE
;最后保存便可完成 Model 的建立,你能够打开 Model 中的 Visualization 标签页查询模型的表链接状况。
每个 Snapshot 是和一个 Hive 维度表对应的,生成的过程是:
Any Code,Code Any!
扫码关注『AnyCode』,编程路上,一块儿前行。