数据仓库ETL

这边用etl作数据相关工做。etl包括三个部分:ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据历来源端通过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较经常使用在数据仓库,但其对象并不限于数据仓库。架构

ETL三个部分中,花费时间最长的是“T”(Transform,清洗、转换)的部分,通常状况下这部分工做量是整个ETL的2/3。数据的加载通常在数据清洗完了以后直接写入DW(Data Warehousing,数据仓库)中去。工具

分开来说,Extract其实最困难,Transform最麻烦,Load最容易。oop

经常使用的技术架构中,e能够说kafka,t:hadoop mapreduce,spark;l:hive作存储,es,solr作索引。总体集成工具备:Kettlespa

相关文章
相关标签/搜索