数据仓库学习笔记（二）

时间 2019-11-19

标签数据仓库学习笔记繁體版

原文原文链接

第二章数据仓库环境数据库

上一章的学习中，大致了解了什么是体系结构话环境，这一章就数据仓库的一些细节进行了讲解。学习

这里我想对数据仓库下一个定义：数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。数据仓库是体系结构化环境的核心，是决策支持系统（DSS）处理的基础，与传统的数据环境相比，DDS分析员可以更容易的在数据库环境中进行工做。编码

下面分开来说一下我对数据仓库这四个特色的理解：设计

1. 数据仓库的面向主题性。传统的操做型系统是围绕系统的功能性应用来进行组织的，例如对于一个保险公司来讲，他的应用问题多是人寿保险、健康保险、汽车保险、意外伤亡保险等，对于每一种保险，可能都会创建一张表用来存放相应应用主题的信息。索引

而数据仓库的面向主题性则彻底不一样，它更倾向于按照主题来肯定数据存放的方式，也就是咱们俗称的主题域。例如上例中的保险公司，数据仓库可能会按照顾客、保险单、保险费、索赔等对全部类型的保险进行存储。数据分析

2. 数据仓库的第二个显著特色是集成，在数据仓库的全部特性之中，集成是最重要的。不少时候，数据仓库的数据是从多个不一样的数据源传送过来的，虽然抽取过来的数据从内容上讲是有联系的，但不一样应用的设计人员在编码、命名习惯、物理属性、属性度量单位等方面都会存在差别，这就使得将数据导入到数据仓库以前必须对他们进行一致性处理。效率

3. 数据仓库的第三个重要特性是非易失的。操做性系统的数据是会常常进行改变的，例如火车票的预约，每个时刻余票的数量都是不必定的，因此某一个时间片断上余票信息是很容易失去的，但在数据仓库环境中，数据通常是不进行数据更新的，数据仓库中保存的是数据的历史情况。基础

4. 数据仓库的最后一个特性是随时间变化。时变性的意思是数据仓库中的每一个数据单元只是在某一时间是准确的。一些状况下，记录中会加入时间戳，而在另一些状况下记录则包含一个事物的时间。总之，任何状况下，数据仓库的记录都会包含某种形式的时间标志用以说明数据在那一时刻是准确的，而且数据仓库的关键字结构老是包含时间元素。搜索

下面来讨论一下数据仓库设计中须要特别注意的两个方面。时间戳

1. 粒度。粒度问题是设计数据仓库的最重要的方面。粒度指的是数据仓库中数据单元的细节程度或综合程度的级别，它会深入的影响存放在数据仓库中的数据量的大小以及数据仓库所能回答的查询类型。

下面举一个粒度设计的小例子：原始数据为一个顾客一个月中的全部通话细节，若是将全部的数据都存放到数据仓库中显然是不合适的，这样会致使数据仓库数据量的急剧增长，对于数据分析的效率将形成巨大的影响；但若是将这个月的通话信息进行一个整合，按照月份将具体的通话时间、费用等进行存放，数据量大大的下降，但与此同时会丢掉大量的详细信息，未来的DSS分析员只能对月份及以上的时间跨度进行数据分析，这样直接致使可供分析的选择大大下降。

因此，根据具体状况，选择一个合适的粒度是十分重要的。在实际应用环境当中，更多使用的实际上是双重粒度。具体的使用能够具体从网上搜索一下，在这里不进行详细的讲解了。

2. 数据仓库中数据的第二个主要设计问题是分区。数据分区是指把数据分散到可独立处理的分离的物理单元当中去。在数据仓库中，围绕分区问题的焦点不是该不应分区而是该如何分区。

数据分区使得数据能够在小的分开的离散单元中进行管理。这使得数据仓库中的数据装载变得简单，创建索引额更加顺畅，数据归档也变得容易。一般的状况下，分区是在应用层而非系统层进行的。

总结一下：数据仓库设计决策的两个重要方面：数据的粒度与分区。对于大部分机构来讲，采用双重粒度是很是有意义的。