KETTLE——初见KETTLE

(PS:这是很早之前在CSDN上发过的,那个帐号不想用了,因此搬过来)数据库

就在前一段时间,由于公司须要忽然被老大告知要用一个ETL工具,第一次知道这么个工具,彻底不知道是作什么的。大概问了一下,说是一种数据转化工具。这就开始了:工具

1.了解什么是ETL:百度百科ETL学习

2.查找合适的ETL工具:支持Oracle、MySQL、开源,因而我遇到了KETTLE;测试

3.开始了解KETTLE,(链接为KETTLE的开源社区网)url

4.下载KETTLE(PS:一样都是要学习,因此我选择了目前最新的版本:pdi-ce-6.0.1.0-386,通常新的版本网上的资料可能会比较少,但一般均可以学习参考)spa

5.开始找学习文档和资料,比较官方的文档我是没有找到(若是谁有请发我一份),网上的博客却是很多大多数是4版本的,虽然有一些转载的人不对其测试,原创的人写的不够详细固然也有详细的,但总归仍是谢谢他们的分享精神让我对其有了大概的了解。(PS:对于那些我就不贴链接了,网上铺天盖地的博客)。操作系统

 

以上基本全是网上的东西,做为KETTLE工具新手的我,大概说说个人理解和学习的过程(有误请谅解):.net

KETTLE,一个抽取+转换+加载的工具,用JAVA开发,所以运行也须要JAVA的环境。插件

我把这个工具大致上分为了六块内容:资源库、数据抽取、映射转换、数据写入、调度、增量处理。日志

资源库:主要是KETTLE存储基本自身文件的地方,如咱们链接数据库、本身写的转换等文件。KETTLE自身支持两种方式的存储:数据库资源库和文件资源库,还有一种Pentaho资源库,须要Pentaho的插件。

数据抽取:数据源。

映射转换:我的以为是最核心的东西,这部分是处理真实业务的关键所在。

数据写入:输出源。

调度:大致上有两种方式,操做系统调度和Pentaho BI Server,网上还有不少的好比WEB调度之类的。

增量处理:主要是四种思路,时间戳方式、快照方式、触发器方式、日志方式。

 

以上是我我的对于KETTLE的学习的分法,我也是按照这六块内容学习的,文言之处还望包含。