以前分享了关于数据中台建设之思考和关于中台建设之思考,数据中台建设要考虑三个方面,一是前沿IT技术之储备,二是对业务的掌握程度,三是数据建模方法。数据库
关于数据建模在《DAMA数据管理知识体系指南中文版》,第四章数据架构管理,第五章数据开发管理,第九章数据仓库和商务智能管理中均有涉及,数据建模也有多种多样的方法,本文尝试对相关数据建模方法进行解读和全面梳理。微信
百度中关于数据建模的定义是“数据建模是一种用于定义和分析数据的要求和其须要的相应支持的信息系统的过程。数据建模指的是对现实世界各种数据的抽象组织,肯定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。将通过系统分析后抽象出来的概念模型转化为物理模型后,在visio或erwin等工具创建数据库实体以及各实体之间关系的过程。”网络
提及数据建模,不能不提数据架构,数据建模是数据架构的核心,数据架构又是企业架构的一部分。企业数据架构整合整个企业的数据并标准化,是企业架构的一部分,企业数据架构是一套规范和文档的集合,主要包括企业数据模型:企业数据架构的核心;信息的价值链分析:使数据与业务流程及其余企业架构组件相一致;相关数据交付架构:包括数据库架构、数据整合架构、数据仓库/商务智能架构、文档和内容架构,以及元数据架构。数据结构
关于企业架构比较著名的是Zachman框架,它旨为信息技术企业提供一种能够理解的信息表述。它能够对企业信息按照要求分类和从不一样角度进行表示。也被称为企业架构和企业信息系统结构架构。Zachman框架提炼和吸取了传统方法中的一些精髓,它是一款独立于信息企业所使用的工具的平台。它能够根据抽象规则定义企业信息的一个方面.一个框架采用了一种六行,每行中包含36个子单元的格式,这六行包括了范围,商业模式,系统模式,技术模式,组件和工做系统)其中有六列分别为谁,什么,什么时间,什么地点,为何和如何作。架构
数据架构是用于定义数据,指导对数据资产的整合和控制、使数据投资与业务战略相匹配的一套总体构建规范,包括正式的数据命名、全面的数据定义、有效的数据结构、精确的数据完整性规则,以及健全的数据文档。--以上来自《DAMA数据管理知识体系指南中文版》框架
数据模型是定义业务实体以及运营和指导业务所需的那些事实。数据模型是一种分析和设计方法,用于定义和分析数据需求,设计知足以上需求的逻辑和物理数据结构。企业数据模型是反映数据需求和设计的一系列规范和相关图表,企业数据模型是企业范围内的整合的、面向主题的数据模型,用来定义关键的数据生产者和消费者。这里的整合是组织中全部数据和规则都只被描述一次并没有缝地相互配合。这里的面向主题是模型分解为跨多个业务流程和应用系统的有共识的主题域。主题域关注最相当重要的业务实体。这里的关键是数据对组织高效运做和决策制定相当重要。--以上来自《DAMA数据管理知识体系指南中文版》。注意这里的提到的整合和面向主题和数据仓库中有所不一样。工具
在DAMA中关于企业数据模型是分层次的,核心是主题域,其下是概念视图和逻辑视图,而且企业数据模型是自上而下构建的。spa
主题域模型,是一系列主要主题域的列表,共同表达企业最关键领域。企业数据模型经过主题域来组织其他的模型层次;主题域是数据管理制度和数据治理的重要工具,定义了基于主题域的数据管理制度团队的责任范围。.net
主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域,所以这个数据仓库应用的主题就是“销售分析”。设计
面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整而且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。
电商主题域
电信运营商主题域
电网主题域
上图均为从网络上收集的主题域,能够看出企业主题的构建是个极其复杂的系统工程,企业主题是分层,好比国网将企业主题分为12个主题域,在其下又包含65个二级主题域;再则,主题域构建的来源在哪里呢?首先是企业内部需求驱动,但若是在短时间内构建呢?企业内部需求显然是来不及的,这时候要考虑引入国际标准和行业标准,固然财务的有财务标准,GIS的有GIS标准,设备的有设备的标准,整合起来仍是有很大困难的,但至少也比从头至尾所有构建来的快,另一个捷径是借鉴其余同类企业的标准了。
企业概念数据模型,企业数据模型的下一个层级是一系列针对每一个主题域的概念数据模型图表。是定义业务实体及这些业务实体之间的关系,业务实体是主要组成部分,是企业熟悉并感兴趣的那些事物、人员、地点的概念和类别。业务实体的一个例子是实例。概念数据模型图通常不描述业务实体的数据属性,概念数据模型可能会包括实体之间多对多的业务关系,能够促进人们对业务的理解,以及有利于语义上的一致性,能够做为框架指导开发整合的信息系统,既包括交易处理系统,也包括商务智能分析系统。
整体概念模型
客户概念模型
企业逻辑数据模型是在概念模型之下,增长了更多细节来反映每一个实体的关键数据属性,企业逻辑模型识别每一个业务实体实例所需的数据,关键数据属性表明了通用的数据需求以及那些被普遍共享的数据属性的标准定义,关键的数据属性是指若是缺失则致使企业没法正常运做的属性。企业逻辑模型视图反映企业视角,是中立的且不依赖于任何特定的需求用途和应用背景,企业逻辑数据模型只应该包括全部业务定义的词汇表,和其余相关联业务实体机器数据属性的元数据。
在概念模型基础上,再进行企业级逻辑数据模型的建设,但企业级逻辑数据模型通常都包含几千上万的个业务实体及其复杂的关系,这对于从概念模型到逻辑模型的构建是个巨大的挑战。
后文再探讨一下物理模型,范式模型和维度建模以及数仓建模的相关方法。
本文分享自微信公众号 - 追梦IT人(baoqiangwang2020)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。