kylin2.3版本启用jdbc数据源（能够直接经过sql生成hive表，省去手动导数据到hive,并建hive表的麻烦）

时间 2019-11-20

标签 kylin2.3 kylin 版本启用 jdbc 数据能够直接经过 sql 生成 hive 省去手动麻烦栏目 Java 繁體版

原文原文链接

kylin2.3版本启用jdbc数据源（能够直接经过sql生成hive表，省去手动导数据到hive,并建hive表的麻烦）git

说明：sql

jdbc数据源，本质上仍是hive数据源。数据库

因为数据库作大表关联方面性能仍是不行。因此kylin的默认数据源仍然是hive,我以为是很是合理的。apache

对应jdbc数据源，其实就是一种便利的方式。其基本原理就是经过链接数据库，选取所要用的表（或者sql查询）。网络

经过sqoop并行的抽取数据，并按照表名生成对应的hive表。cube的构建就根据生成的hive表进行。oop

每次构建的时候都从新抽取数据，生成hive表，构建完成以后，就把这个hive表删除掉。性能

至关因而自动作了以前开发须要本身作的数据同步到hdfs、新建hive表、同步hive表到kylin这些繁琐重复的工做。大数据

缺点：blog

一、基于以上说明，很容易得出其缺点就是这些hive表是瞬时的。每次构建都要现场去抽取全量的数据（从而增大了数据库的压力，增长了网络开销，而且拖慢了cube总体构建速度）。（这里能够经过定制其源码改为可配置的增量更新的方式，会更好用；可是要考虑表结构变动，是删除全表重建，仍是要怎么处理）开发

二、因为表是瞬时的，就不能同时把这些表提供给其余方使用。

三、数据源方式不能共用，就是不能同时使用hive和jdbc数据源。这个对须要大数据平台处理的数据就不那么友好了，数据处理完再写会数据库会很是慢。

参考其官网说明和git

https://issues.apache.org/jira/browse/KYLIN-3044

设置sqoop导入的默认并行度