1、大数据下的ETL工具是否还使用Kettleweb
kettle 做为通用的ETL工具,很是成熟,应用也很普遍,这里主要讲一下 目前咱们如何使用kettle的?redis
在进行大数据处理时,ETL也是大数据处理的主要场景之一。 针对大数据下的ETL, 在大数据研究之初,曾经花费很大精力去寻找大数据下比较成熟的ETL工具,可是很少。主要分类以下:sql
大数据下的ETL处理过程和传统关系型数据库下的ETL处理过程,个人理解本质仍是同样的,要说区别 多是大数据下须要ETL处理的数据速度足够快,这就要求能够充分利用分布式的能力,好比利用分布式的资源进行分布式的的计算。数据库
基于使用经验和产品成熟度,在大数据下咱们针对一些对数据处理速度不是很是之高的场景,咱们仍然使用kettle。 这里我为何不说数据量,由于对于一个ETL过程,说数据量是无心义的,好的ETL工具的核心引擎必定是一个相似如今的流式计算数据结构
也就是说数据向水同样的流动,流动的过程当中作数据处理。也可kettle自己的含义相似。多线程
基于我的的理解,任务kettle的优点主要体如今如下几点架构
2.运行时框架
3.可扩展性分布式
4.待完善点工具
目前kettle 的定位:
2.2 数据流处理的核心序列
2.2.1 任务的执行顶层序列
2.2.2步骤的初始化
每一个步骤队列的分配过程
数据放入队列
2.2.5 table out put
以上 是kettle 核心数据流处理的核心过程。分享给你们