最近在数据库库领域新设置的职位elt 工程师,你们想多了解下么?
ETL(数据仓库技术)
ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据历来源端通过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较经常使用在数据仓库,但其对象并不限于数据仓库。数据库
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,通过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。eclipse
ETL工具的典型表明有:Informatica、Datastage、OWB、微软DTS、Beeload、Kettle、久其ETL……
开源的工具备eclipse的etl插件:cloveretl
数据集成:快速实现ETL
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的缘由有不少,由系统集成和历史数据形成的缘由主要包括:业务系统不一样时期系统之间数据模型不一致;业务系统不一样时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。
实现ETL,首先要实现ETL转换的过程。体现为如下几个方面:
一、空值处理:可捕获字段空值,进行加载或替换为其余含义数据,并可根据字段空值实现分流加载到不一样目标库。
二、规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式。
三、拆分数据:依据业务需求对字段可进行分解。例,主叫号 861082585313-8148,可进行区域码和电话号码分解。
四、验证数据正确性:可利用Lookup及拆分功能进行数据验证。例如,主叫号861082585313-8148,进行区域码和电话号码分解后,可利用Lookup返回主叫网关或交换机记载的主叫地区,进行数据验证。
五、数据替换:对于因业务因素,可实现无效数据、缺失数据的替换。
六、Lookup:查获丢失数据 Lookup实现子查询,并返回用其余手段获取的缺失字段,保证字段完整性。
七、创建ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键惟一记录的加载。ide