KETTLE、spoon使用

ETL是Extract”、“ Transform” 、“Load”三个单词的首字母缩写分别表明了抽取、转换、装载、是数据仓库中重要的一环、ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,抽取将数据从各类原始的业务系统中读取出来,这是全部工做的前提。转换按照预先设计好的规则将抽取得数据进行转换,使原本异构的数据格式能统一块儿来。装载将转换完的数据按计划增量或所有导入到数据仓库中。大数据的利器你们可能广泛说是hadoop,可是你们要知道若是咱们不作预先的清洗和转换处理,咱们进入hadoop后仅经过mapreduce进行数据清洗转换再进行分析,垃圾数据会致使咱们的磁盘占用量会至关大,这样无形中提高了咱们的硬件成本(硬盘大,内存小处理速度会很慢,内存大cpu性能低速度也会受影响),所以虽然hadoop理论上解决了烂机器拼起来解决大问题的问题,可是事实上若是咱们有更好的节点速度必然是会广泛提高的,所以ETL在大数据环境下仍然是必不可少的数据交换工具。目前流行的数据进入仓库的过程有两种形式,一种是进入数据库后再进行清洗和转换,另一条路线是首先进行清洗转换再进入数据库,咱们的ETL属于后者。ETL是数据整合解决方案。目前的运行应用系统是用户花了大部分精力和构建的、系统中的数据时很是宝贵的、是不可代理的系统、它的存在是为了解决原始数据库中的数据来源与格式的不一样致使的系统实施、数据整合问题。
KETTLE是一款很优秀的开源ELT工具、java编写的、能够在Window、Linux、Unix上运行、KETTLE应用普遍,并且使用方便、抽取高效稳定。仅仅学会使用就能够找到一份不错的工做课程渗透了大数据的一些处理方法,与目前流行的hadoop配合使用。分析KETTLE源码,即便对ETL兴趣不大,至少能够了解国外开源项目的一些源码,而且KETTLE自己也使用了不少开源项目,所以能够从该工具上学到更多东西java

相关文章
相关标签/搜索