ETL-kettle 核心执行逻辑

时间 2019-12-15

标签 etl kettle 核心执行逻辑繁體版

原文原文链接

1、大数据下的ETL工具是否还使用Kettleweb

kettle 做为通用的ETL工具,很是成熟，应用也很普遍，这里主要讲一下目前咱们如何使用kettle的？redis

在进行大数据处理时，ETL也是大数据处理的主要场景之一。针对大数据下的ETL, 在大数据研究之初，曾经花费很大精力去寻找大数据下比较成熟的ETL工具，可是很少。主要分类以下：sql

- 开源的图形界面相似 kettle 的nifi
- 命令形式的如 sqoop、DataX
- 还有使用Spark 自定义开发ETL框架的

大数据下的ETL处理过程和传统关系型数据库下的ETL处理过程，个人理解本质仍是同样的，要说区别多是大数据下须要ETL处理的数据速度足够快，这就要求能够充分利用分布式的能力，好比利用分布式的资源进行分布式的的计算。数据库

基于使用经验和产品成熟度，在大数据下咱们针对一些对数据处理速度不是很是之高的场景，咱们仍然使用kettle。这里我为何不说数据量，由于对于一个ETL过程，说数据量是无心义的，好的ETL工具的核心引擎必定是一个相似如今的流式计算数据结构

也就是说数据向水同样的流动，流动的过程当中作数据处理。也可kettle自己的含义相似。多线程

基于我的的理解，任务kettle的优点主要体如今如下几点架构

设计时：

- 提供了成熟的图形界面，相比命令行形式的etl工具，更容易被推广应用
- 提供了丰富的各类数据库类型的插件，数据转换插件，涵盖场景众多

2.运行时框架

控制流和数据流的设计思想的划分
真正意义的数据流驱动的数据处理引擎，这一点也认为是同ESB等控制流产品不一样的地方
经过多线程执行插件实例和分布式执行，提高执行速度
和目前大数据主流的数据库进行集成，固然这个地方主要仍是集成调用

3.可扩展性分布式

- 良好的插件架构，保证了设计时和运行时的可扩展性

4.待完善点工具

kettle 任务定义多了，当数据结构发生变化时，须要修改较多，最好有统一的数据对象管理
kette的图形化设计器虽然好用，可是web 化的设计器更容易多人使用，提高设计效率

目前kettle 的定位：

- 传统关系型数据库和大数据库之间数据导入导出
- 基于关系型数据库和大数据库由数据驱动的简单数据流任务

目前针对kettle作的扩展开发

插件开发

- - 基于ES的sdk 开发ES的 input和output插件
  - 封装支撑Druid 数据导出的input 插件
  - 封装支持redis的插件
  - 封装支持调用Kylin build job的插件
  - 封装支持调用Tidb sql的插件
  - 优化基于Azure wasb存储的hbase input 和output 插件
- 调度集成
  - 大数据下的调度主要使用的Ooize，界面上主要使用HUE，经过扩展开发HUE 的插件的形式调用Kettle的web服务进行调度集成
- 待完善点
  - kettle的商业版中包含了元数据管理，下一步须要将kettle中使用的表和字段，和大数据的数据治理集成
  - kettle处理日志经过ELK将日志采集到ES进行进一步的分析
  - kettle web 提升kettle任务的定义效率
2、核心执行逻辑
kettl的数据流处理过程，充分体现了其引擎对数据的流式处理过程。这里主要经过展示kettle 源码序列图的方式进行体现，但愿你们能够经过这里的序列图了解其执行的基本原理，也就方便进行插件的扩展开发和平常问题的解决。
2.2 数据流处理核心逻辑

2.2 数据流处理的核心序列
2.2.1 任务的执行顶层序列
2.2.2步骤的初始化

2.2.3 步骤的执行

每一个步骤队列的分配过程


数据放入队列
2.2.4 具体步骤 -table input

2.2.5 table out put

以上是kettle 核心数据流处理的核心过程。分享给你们

相关文章

相关标签/搜索

Hibernate教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<