1、数据仓库数据库
关于数据仓库概念的标准定义业内承认度比较高的,是由数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《创建数据仓库》)一书中所提出:分布式
中文定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。ui
英文定义:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.spa
2、主题设计
主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每个主题对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式, 就是在较高层次上对分析对象数据的一个完整而且一致的描 述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相 对面向应用的数据组织方式而言的, 是指按照主题进行数据组织的方式具备更高的数据抽象 级别。 与传统数据库面向应用进行数据组织的特色相对应, 数据仓库中的数据是面向主题进行组织的。主题是根据分析的要求来肯定的。这与按照数据处理或应用的要求来组织数据是不一样的。对象
3、主题域blog
主题域一般是联系较为紧密的数据主题的集合。能够根据业务的关注点,将这些数据主题划分到不一样的主题域。主题域的肯定必须由最终用户和数据仓库的设计人员共同完成。ci
4、主题域、主题、实体间关系io
主题设计是对主题域进一步分解,细化的过程。主题域下面能够有多个主题,主题还能够划分红更多的子主题,而实体则是不可划分的最小单位。主题域、主题、实体的关系以下图所示:打包
5、关于主题域的争议
曾经在看到过关于主题域的另一个定义方式:“主题域是对某个主题进行分析后肯定的主题的边界”。相关内容以下文所示:
主题域是对某个主题进行分析后肯定的主题的边界。分析主题域,肯定要装载到数据仓库的主题是 信息打包技术的第一步。而在进行数据仓库设计时,通常是一次先创建一个主题或企业所有主题中的一部分,所以在大多数数据仓库的设计过程当中都有一个主题域的 选择过程。主题域的肯定必须由最终用户和数据仓库的设计人员共同完成。
好比,对于Adventure Works Cycle这种类型的公司管理层须要分析的主题通常包括供应商主题、商品主题、客户主题和仓库主题。其中商品主题的内容包括记录超市商品的采购状况、商品 的销售状况和商品的存储状况;客户主题包括的内容可能有客户购买商品的状况;仓库主题包括仓库中商品的存储状况和仓库的管理状况等,如图3-31所示。
图3-31 根据业务状况肯定的分析主题
肯定主题边界实际上须要进一步理解业务关系,所以在肯定整个分析主题后,还须要对这些主题进行初步的细化才便于获取每个主题应该具备的边界。对于图3-31的4个主题及其在企业中的业务关系能够肯定边界如图3-32所示。
图3-32 主题域的划分
通过对以上内容深刻分析,发现此定义与:”主题域一般是联系较为紧密的数据主题的集合“并不矛盾,只是所站的视角不一样,“数据主题集合”的观点从数据着眼,前提是已经通过分析、梳理列出全部可能的数据主题,此处数据主题是细粒度的,是从微观到宏观;“边界论”的观点中,某个主题是分析的主题,是宏观概念,而非数据主题。
6、未完待续
分布式数据仓库数据存储模型设计进行中,后续会持续更新,请关注QQ群:分布式数据仓库建模 398419457。