BI Dev--ETL Introduce

Chap 1 认识 ETL

focus on :数据库

  1. Know What's ETL?服务器

  2. Know ETL 在 BI 开发中注意的细节spa

1-1 ETL 简介

  1. ETL 是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。设计

  2. ETL 是构建 DW 的重要一环,用户从数据源抽取出数据,经 数据清洗,按照预约义好的 DW模型,将数据加载到 DW 中去。orm

  3. ETL 是将业务系统的数据通过抽取、清洗转换以后加载到 DW 的过程,目的是将企业中的分散零乱、标准不统一的数据到一块儿,为企业的决策提供分析依据。图片

  4. ETL 是 BI 项目中一个重要环节。开发

ETL的设计分三个部分:it

  1. 数据抽取form

  2. 数据的清洗转换class

  3. 数据的加载

下面看流程图:
图片描述

1、数据抽取

首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行的是何种DBMS,是否存在手工数据, 非结构化数据等。

2、数据清洗与转换

数据仓库分为ODS,DW连部分。一般的作法是从业务系统到ODS作清洗,将脏数据和不完整的数据过滤掉,在ODS到过程当中转换,进行一些业务规则的计算和聚合。

1. 数据清洗

主要是过滤那些不符合要求的数据。

  1. 不完整的数据

  2. 错误的数据

  3. 重复的数据

2. 数据转换

数据转换的任务主要进行不一致的数据转换、数据粒度的转换

3、数据的加载

通常在数据清洗完了以后直接写入DW

相关文章
相关标签/搜索