元数据管理
概述
元数据一般定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构,操做和内容的全部信息。元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。前端
元数据在构建数仓过程当中,定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是经过元数据高效地构建数据仓库。web

元数据类型
1.业务元数据
业务元数据指从业务角度描述业务领域相关的概念、关系和规则的数据,包括业务术语和业务规则等信息。数据库
2.技术元数据
技术元数据指描述系统中技术细节相关的概念、关系和规则的数据,包括对数据结构、数据处理方面的描述,以及数据仓库、ETL、前端展示等技术细节方面的信息。安全
技术元数据又细分为:微信
-
数据源元数据 -
ETL元数据 -
数据仓库元数据 -
BI元数据
3.管理元数据
管理元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。数据结构
元数据获取途径
-
外部数据源
主要有源系统、ETL工具、报表工具的元数据架构
-
数据仓库
数据库物理模型的元数据app
-
手工补录
主要有Mapping文档、任务配置、业务规则、业务术语、业务人员手工补录的数据,大多数是规则明确的业务数据数据库设计
元数据功能
血缘分析: 向上追溯元数据对象的数据来源。编辑器
影响分析:向下追溯元数据对象对下游的影响。
同步检查: 检查源表到目标表的数据结构是否发生变动。
指标一致性分析: 按期分析指标定义是否和实际状况一致。
实体关联查询: 事实表与维度表的代理键自动关联
元数据应用
ETL自动化管理: 使用元数据信息自动生成物理模型,ETL程序脚本,任务依赖关系和调度程序。
数据质量管理: 使用数据质量规则元数据进行数据质量测量。
数据安全管理: 使用元数据信息进行报表权限控制。
数据标准管理: 使用元数据信息生成标准的维度模型。
数据接口管理: 使用元数据信息进行接口统一管理。
数据质量管理
概述
数据质量的高低表明了该数据知足数据消费者指望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为能够理解的和可重复的数字,使咱们可以在不一样对象之间和跨越不一样时间进行比较。
数据质量管理是经过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。
数据质量产生的根本缘由
-
源系统:源系统的数据结构发生变化,这是常有的事,数据仓库只是数据存储中心,而源系统的改变会形成数据仓库中数据质量发生变化 -
ETL:源系统业务流程发生了变动 -
业务需求:
-
源系统数据录入错误或者延迟 -
源系统随着时间的推移,数据发生了演变 -
需求不明确或者知足不了客户需求 -
ETL映射规则错误 -
ETL程序错误 -
数据没有及时到达或者依赖关系错误 -
源系统的业务数据与业务需求发生冲突
数据质量面临的挑战
数据的污染是在数据仓库中处理的,延伸出去就造成了专业的数据治理,可是数据的污染却在数据仓库以外发生的,全部必需要清楚数据的污染源有哪些:
**系统转换:**源系统的系统升级、转换、迁移是数据污染的重要缘由
**数据老化:**在经历一代又一代的系统升级、转换、迁移,历史数据每每没法知足当时时间的业务需求
**复杂的系统集成:**源系统种类繁多,关系日渐复杂,出现污染数据的可能性愈来愈大
拙劣的数据库设计: 坚持实体完整性和参考完整性规则能够防止一些数据污染,可是目前数据仓库存在两种观点:注重模型、注重集市,围绕业务进行数据库设计,这两种观点与传统的十大主题设计存在矛盾点。
数据输入的不完整性:源系统的数据输入是数据污染的主要来源,信息输入错误会给数据仓库模型创建形成很大的压力
缺少数据治理相关的政策:若是一个公司对数据质量没有明确的相关政策,那么他的数据质量不可能获得保证
数据质量的指标
准确性
准确性要求数据可以正确描述客观世界。好比某用户姓名拼音mu chen错误的录入成了muc hen,就应该弹出警告语;
惟一性(视状况而定)
惟一性要求数据不能被重复录入,或者不能有两个几乎相同的关系。好比张三李四在不一样业务环境下分别创建了近乎相同的关系,这时应将这两个关系合并;
完整性
完整性要求进行数据搜集时,需求数据的被描述程度要高。好比一个用户的购买记录中,必然要有支付金额这个属性;规则验证。
一致性
一致性要求不一样关系、或者同一关系不一样字段的数据意义不发生冲突。
好比某关系中昨天存货量字段+当天进货量字段-当天销售量字段等于当天存货量就多是数据质量有问题;
及时性
及时性要求数据库系统中的数据"保鲜"。好比当天的购买记录当天就要入库;
统一性
统一性要求数据格式统一。好比nike这个品牌,不能有的字段描述为"耐克",而有的字段又是"奈克";
元数据的做用
在数据仓库中,元数据的主要做用以下。
-
(1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。 -
(2)定义数据进入数据仓库的方式,做为数据汇总、映射和清洗的指南。 -
(3)记录业务事件发生而随之进行的数据抽取工做时间安排。 -
(4)记录并检测系统数据一致性的要求和执行状况。 -
(5)评估数据质量。
2020-11-11

2020-11-10

2020-11-09


扫描下方二维码
加入优质社群一块儿交流吧!
如若二维码过时
请添加小编微信,回复关键词:[进群/加群],
-今日互动-
元数据管理你了解了吗?欢迎文章下方留言互动
若是对你有帮助的话
❤️来个「转发朋友圈」和「在看」,是最大的支持❤️
本文分享自微信公众号 - DataScience(DataScienceTeam)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。