1.数据仓库-概览

数据仓库目前总共有4个部分: 1)ETL 2)数据模型 3)调度 4)可视化 一:ETL 1)目前ETL 主要使用kettle、Python、sql。 Kettle 在目前仓库的作用,更多的是从源库将数据抽取到数据仓库当中。 Sql 主要是数据的聚合和清洗 Python 主要数据的清洗。 目前源数据库分为mongoDB 和 mysql, 所以在抽取这二者的数据库时,会用到kettle不同的组件处理
相关文章
相关标签/搜索