数据仓库搭建步骤

时间 2019-12-11

标签数据仓库搭建步骤繁體版

原文原文链接

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的，这些特色决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库同样的设计方法。
数据仓库系统的原始需求不明确，且不断变化与增长，开发者最初不能确切了解到用户的明确而详细的需求，用户所能提供的无非是需求的大的方向以及部分需求，更不能较准确地预见到之后的需求。所以，采用原型法来进行数据仓库的开发是比较合适的，由于原型法的思想是从构建系统的简单的基本框架着手，不断丰富与完善整个系统。可是，数据仓库的设计开发又不一样于通常意义上的原型法，数据仓库的设计是数据驱动的。这是由于数据仓库是在现存数据库系统基础上进行开发，它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源，服务于企业高层领导管理决策分析的须要。但须要说明的是，数据仓库系统开发是一个通过不断循环、反馈而使系统不断增加与完善的过程，这也是原型法区别于系统生命周期法的主要特色。所以，在数据仓库的开发的整个过程当中，自始至终要求决策人员和开发者的共同参与和密切协做，要求保持灵活的头脑，不作或尽可能少作无效工做或重复工做。
数据仓库的设计大致上能够分为如下几个步骤：
l 概念模型设计；
l 技术准备工做；
l 逻辑模型设计；
l 物理模型设计；
l 数据仓库生成；
l 数据仓库运行与维护。
下面咱们六个主要设计步骤为主线，介绍在各个设计步骤中设计的基本内容。
第一节  概念模型设计
进行概念模型设计所要完成的工做是：
< 1>界定系统边界
< 2>肯定主要的主题域及其内容
概念模型设计的成果是，在原有的数据库的基础上创建了一个较为稳固的概念模型。由于数据仓库是对原有数据库系统中的数据进行集成和重组而造成的数据集合，因此数据仓库的概念模型设计，首先要对原有数据库系统加以分析理解，看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等，而后再来考虑应当如何创建数据仓库系统的概念模型。一方面，经过原有的数据库的设计文档以及在数据字典中的数据库关系模式，能够对企业现有的数据库中的内容有一个完整而清晰的认识；另外一方面，数据仓库的概念模型是面向企业全局创建的，它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。
概念模型的设计是在较高的抽象层次上的设计，所以创建概念模型时不用考虑具体技术条件的限制。
1. 界定系统的边界
数据仓库是面向决策分析的数据库，咱们没法在数据仓库设计的最初就获得详细而明确的需求，可是一些基本的方向性的需求仍是摆在了设计人员的面前：
l 要作的决策类型有哪些?
l 决策者感兴趣的是什么问题?
l 这些问题须要什么样的信息?
l 要获得这些信息须要包含原有数据库系统的哪些部分的数据?
这样，咱们能够划定一个当前的大体的系统边界，集中精力进行最须要的部分的开发。于是，从某种意义上讲，界定系统边界的工做也能够看做是数据仓库系统设计的需求分析，由于它将决策者的数据分析的需求用系统边界的定义形式反映出来。
2. 肯定主要的主题域
   在这一步中，要肯定系统所包含的主题域，而后对每一个主题域的内容进行较明确的描述，描述的内容包括：
l 主题域的公共码键；
l 主题域之间的联系；
l 充分表明主题的属性组。
第二节  技术准备工做
这一阶段的工做包括：技术评估，技术环境准备。
这一阶段的成果是：技术评估报告、软硬件配置方案、系统(软、硬件)整体设计方案。管理数据仓库的技术要求与管理操做型环境中的数据与处理的技术要求区别很大，二者所考虑的方面也不一样。咱们之因此在通常状况下老是将分析型数据与操做型数据分离开来，将分析型数据单独集中存放，也就是用数据仓库来存放，技术要求上的差别是一个重要缘由。
1. 技术评估
进行技术评估，就是肯定数据仓库的各项性能指标。通常状况下，须要在这一步里肯定的性能指标包括：
l 管理大数据量数据的能力；
l 进行灵活数据存取的能力；
l 根据数据模型重组数据的能力；数据库

l 透明的数据发送和接收能力；
l 周期性成批装载数据的能力；
l 可设定完成时间的做业管理能力。
2. 技术环境准备
一旦数据仓库的体系化结构的模型大致建好后，下一步的工做就是肯定咱们应该怎样来装配这个体系化结构模型，主要是肯定对软硬件配置的要求；咱们主要考虑相关的问题：
l 预期在数据仓库上分析处理的数据量有多大?
l 如何减小或减轻竞争性存取程序的冲突?
l 数据仓库的数据量有多大?
l 进出数据仓库的数据通讯量有多大?等等。
根据这些考虑，咱们就能够肯定各项软硬件的配备要求，而且在这一步工做结束时各项技术准备工做应已就绪，能够装载数据了。这些配备有：
l 直接存取设备(DASD)；
l 网络；
l 管理直接存取设备(DASD)的操做系统；
l 进出数据仓库的界面(主要是数据查询和分析工具)；
管理数据仓库的软件，目前即选用数据库管理系统及有关的选件，购买的DBMS产品不能知足管理数据仓库须要的，还应考虑本身或软件集成商开发有关模块等等。
第三节逻辑模型设计
在这一步里进行的工做主要有：
l 分析主题域，肯定当前要装载的主题；
l 肯定粒度层次划分；
l 肯定数据分割策略；
l 关系模式定义；
l 记录系统定义
逻辑模型设计的成果是，对每一个当前要装载的主题的逻辑实现进行定义，并将相关内容记录在数据仓库的元数据中，包括：
l 适当的粒度划分；
l 合理的数据分割策略；
l 适当的表划分；
l 定义合适的数据来源等。
1. 分析主题域
在概念模型设计中，咱们肯定了几个基本的主题域，可是，数据仓库的设计方法是一个逐步求精的过程，在进行设计时，通常是一次一个主题或一次若干个主题地逐步完成的。因此，咱们必须对概念模型设计步骤中肯定的几个基本主题域进行分析，并选择首先要实施的主题域。选择第一个主题域所要考虑的是它要足够大，以便使得该主题域能建设成为一个可应用的系统；它还要足够小，以便于开发和较快地实施。若是所选择的主题域很大而且很复杂，咱们甚至能够针对它的一个有意义的子集来进行开发。在每一次的反馈过程当中，都要进行主题域的分析。
2. 粒度层次划分
数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次，粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。肯定数据仓库的粒度划分，可使用在粒度划分一节中介绍的方法，经过估算数据行数和所需的DASD数，来肯定是采用单一粒度仍是多重粒度，以及粒度划分的层次。
3. 肯定数据分割策略
在这一步里，要选择适当的数据分割的标准，通常要考虑如下几方面因素：数据量(而非记录行数)、数据分析处理的实际状况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素；数据分析处理的要求是选择数据分割标准的一个主要依据，由于数据分割是跟数据分析处理的对象紧密联系的；咱们还要考虑到所选择的数据分割标准应是天然的、易于实施的：同时也要考虑数据分割的标准与粒度划分层次是适应的。
4. 关系模式定义
数据仓库的每一个主题都是由多个表来实现的，这些表之间依靠主题的公共码键联系在一块儿，造成一个完整的主题。在概念模型设计时，咱们就肯定了数据仓库的基本主题，并对每一个主题的公共码键、基本内容等作了描述在这一步里，咱们将要对选定的当前实施的主题进行模式划分，造成多个表，并肯定各个表的关系模式。编程

第四节物理模型设计
这一步所作的工做是肯定数据的存储结构，肯定索引策略，肯定数据存放位置，肯定存储分配。
肯定数据仓库实现的物理模型，要求设计人员必须作到如下几方面：
l 要全面了解所选用的数据库管理系统，特别是存储结构和存取方法。
l 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等，这些是对时间和空间效率进行平衡和优化的重要依据。
l 了解外部存储设备的特性，如分块原则，块大小的规定，设备的I／O特性等。
1. 肯定数据的存储结构
一个数据库管理系统每每都提供多种存储结构供设计人员选用，不一样的存储结构有不一样的实现方式，各有各的适用范围和优缺点，设计人员在选择合适的存储结构时应该权衡三个方面的主要因素：存取时间、存储空间利用率和维护代价。
2. 肯定索引策略
数据仓库的数据量很大，于是须要对数据的存取路径进行仔细的设计和选择。因为数据仓库的数据都是不常更新的，于是能够设计多种多样的索引结构来提升数据存取效率。
在数据仓库中，设计人员能够考虑对各个数据存储创建专用的、复杂的索引，以得到最高的存取效率，由于在数据仓库中的数据是不常更新的，也就是说每一个数据存储是稳定的，于是虽然创建专用的、复杂的索引有必定的代价，但一旦创建就几乎不需维护索引的代价。
3. 肯定数据存放位置
咱们说过，同一个主题的数据并不要求存放在相同的介质上。在物理设计时，咱们经常要按数据的重要程度、使用频率以及对响应时间的要求进行分类，并将不一样类的数据分别存储在不一样的存储设备中。重要程度高、常常存取并对响应时间要求高的数据就存放在高速存储设备上，如硬盘；存取频率低或对存取响应时间要求低的数据则能够放在低速存储设备上，如磁盘或磁带。
数据存放位置的肯定还要考虑到其它一些方法，如：决定是否进行合并表；是否对一些常常性的应用创建数据序列；对经常使用的、不常修改的表或属性是否冗余存储。若是采用了这些技术，就要记入元数据。
4. 肯定存储分配
许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理，如：块的尺寸、缓冲区的大小和个数等等，它们都要在物理设计时肯定。这同建立数据库系统时的考虑是同样的。
第五节数据仓库的生成
在这一步里所要作的工做是接口编程，数据装入。
这一步工做的成果是，数据已经装入到数据仓库中，能够在其上创建数据仓库的应用，即DSS应用。
1. 设计接口
将操做型环境下的数据装载进入数据仓库环境，须要在两个不一样环境的记录系统之间创建一个接口。乍一看，创建和设计这个接口，彷佛只要编制一个抽取程序就能够了，事实上，在这一阶段的工做中，的确对数据进行了抽取，但抽取并非所有的工做，这一接口还应具备如下的功能：
l 从面向应用和操做的环境生成完整的数据；
l 数据的基于时间的转换；
l 数据的凝聚；
l 对现有记录系统的有效扫描，以便之后进行追加。
固然，考虑这些因素的同时，还要考虑到物理设计的一些因素和技术条件限制，根据这些内容，严格地制定规格说明，而后根据规格说明，进行接口编程。从操做型环境到数据仓库环境的数据接口编程的过程和通常的编程过程并没有区别，它也包括伪码开发、编码、编译、检错、测试等步骤。
在接口编程中，要注意：
l 保持高效性，这也是通常的编程所要求的；
l 要保存完整的文档记录；
l 要灵活，易于改动；
l 要能完整、准确地完成从操做型环境到数据仓库环境的数据抽取、转换与集成。
2. 数据装入
在这一步里所进行的就是运行接口程序，将数据装入到数据仓库中。主要的工做是：
l 肯定数据装入的次序；
l 清除无效或错误数据；
l 数据“老化” ；
l 数据粒度管理；
l 数据刷新等。
最初只使用一部分数据来生成第一个主题域，使得设计人员可以轻易且迅速地对已作工做进行调整，并且可以尽早地提交到下一步骤，即数据仓库的使用和维护。这样既能够在经济上最快地获得回报，又可以经过最终用户的使用、尽早发现一些问题并提出新的需求，而后反馈给设计人员，设计人员继续对系统改进、扩展。网络

第六节数据仓库的使用和维护
在这一步中所要作的工做有创建DSS应用，即便用数据仓库理解需求，调整和完善系统，维护数据仓库。
创建企业的体系化环境，不只包括创建起操做型和分析型的数据环境，还应包括在这一数据环境中创建起企业的各类应用。数据仓库装入数据以后，下一步工做是：一方面，使用数据仓库中的数据服务于决策分析的目的，也就是在数据仓库中创建起DSS应用；另外一方面，根据用户使用状况和反馈来的新的需求，开发人员进一步完善系统，并管理数据仓库的一些平常活动，如刷新数据仓库的当前详细数据、将过期的数据转化成历史数据、清除再也不使用的数据、调整粒度级别等。咱们把这一步骤称为数据仓库的使用与维护。
1. 创建DSS应用
使用数据仓库，即开发DSS应用，与在操做型环境中的应用开发有着本质区别，开发DSS应用不一样于联机事务处理应用开发的显著特色在于：
l DSS应用开发是从数据出发的；
l DSS应用的需求不能在开发初期明确了解；
l DSS应用开发是一个不断循环的过程，是启发式的开发。
DSS应用主要可分为两类：例行分析处理和启发式分析处理。例行分析处理是指那些重复进行的分析处理，它一般是属于部门级的应用，如部门统计分析，报表分析等等；而我的级的分析应用常常是随机性很大的，企业经营者受到某种信息启发而进行的一些即席的分析处理，因此咱们称之为启发式的分析处理。
DSS应用开发的大体步骤以下：
步骤l——肯定所需的数据。为知足DSS应用的要求，咱们必须从数据仓库中肯定一个可能用到的数据范围。这是一个试探的过程。
步骤2——编程抽取数据。根据上面获得的数据范围，编写一个抽取程序来得到这些数据。为适应分析需求多变的特色，要求所编写的抽取程序应该通用，易于修改。
步骤3——合并数据。若是有多个数据抽取源，要将抽取来的数据进行合并、提炼，使数据符合分析处理的要求。
步骤4——分析数据。在上步准备好的数据基础上进行分析处理，并看所得的结果是否知足了原始的要求，若是不能知足，则返回步骤1，开始新的一次循环，不然就准备最终分析结果报告。
步骤5——回答问题。生成最终分析结果报告。—般状况下，最终的分析结果报告是在许屡次的循环后获得的，由于一次分析处理不多是在一次循环后就完成的。
步骤6——例行化、一次分析处理的最后、咱们要决定是否将在上面已经创建的分析处理例行化。若是创建的分析处理是重复进行的部门级的DSS应用，那么最好是将它例行化，这样在进行下一次一样的分析处理时，没必要再重复上述六步的循环过程。并且，不断地积累这种例行处理，造成一个集合，咱们就能够经过组合这些已有的处理来生成新的一个较大的复杂处理，或完成一个复杂处理的一部分。
2. 理解需求，改善和完善系统，维护数据仓库
数据仓库的开发是逐步完善的原型法的开发方法，它要求：要尽快地让系统运行起来，尽早产生效益；要在系统运行或使用中，不断地理解需求，改善系统；不断地考虑新的需求，完善系统。
维护数据仓库的工做主要是管理平常数据装入的工做，包括刷新数据仓库的当前详细数据，将过期的数据转化成历史数据．清除再也不使用的数据，管理元数据，等等；另外，如何利用接口按期从操做型环境向数据仓库追加数据，肯定数据仓库的数据刷新频率，等等。框架