focus on :数据库
Know What's ETL?服务器
Know ETL 在 BI 开发中注意的细节spa
ETL 是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。设计
ETL 是构建 DW 的重要一环,用户从数据源抽取出数据,经 数据清洗,按照预约义好的 DW模型,将数据加载到 DW 中去。orm
ETL 是将业务系统的数据通过抽取、清洗转换以后加载到 DW 的过程,目的是将企业中的分散零乱、标准不统一的数据到一块儿,为企业的决策提供分析依据。图片
ETL 是 BI 项目中一个重要环节。开发
ETL的设计分三个部分:it
数据抽取form
数据的清洗转换class
数据的加载
下面看流程图:
首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行的是何种DBMS,是否存在手工数据, 非结构化数据等。
数据仓库分为ODS,DW连部分。一般的作法是从业务系统到ODS作清洗,将脏数据和不完整的数据过滤掉,在ODS到过程当中转换,进行一些业务规则的计算和聚合。
1. 数据清洗
主要是过滤那些不符合要求的数据。
不完整的数据
错误的数据
重复的数据
2. 数据转换
数据转换的任务主要进行不一致的数据转换、数据粒度的转换
通常在数据清洗完了以后直接写入DW