数据仓库各组成部分以下:数据库
数据仓库是整个数据仓库环境的核心,是数据存放的地方和提供数据检索的支持。相对于操做型数据库来讲,其特色就是对海量数据的支持和快速的检索技术。数据结构
抽取工具把数据从各类各样的存储环境中提取出来,进行必要的转化、整理,再存放到数据仓库。工具
元数据是关于数据的数据,在数据仓库中元数据位于数据仓库的上层,是描述数据仓库内数据的结构、位置和创建方法的数据。性能
通俗来说,是关于数据的数据,能够看做是数据仓库系统的“数据字典”,可是这个字典比传统意义上的数据字典强大。他能够帮助管理员和开发人员方便找到他们所关系的数据,并告诉用户数据仓库中有哪些数据,这些数据从哪里来设计
数据仓库是构建数据仓库时常常用到的一个词汇。若是说数据仓库是企业范围的,收集关于整个组织的主题,如顾客、商品、销售、资产和人员等方面的信息,那么数据集市则是包含企业范围数据的一个子集,例如:只包含销售主题的数据。数据集市只存放某个主题的数据,其目的是减小数据处理量,使信息的利用更加快捷和灵活。3d
OLAP服务是指对存储在数据仓库中的数据提供分析的一种软件,它可以快速提供复杂数据查询和汇集,并帮助用户分析多维数据中的各维状况。orm
数据报表、数据分析和数据挖掘为用户产生的各类数据分析和汇总报表,以及数据挖掘结果。对象
ETL分别是Extract、Transform、Load三个单词的首字母缩写,也就是抽取、转换、装载。ETL是数据仓库的灵魂。blog
数据抽取是将数据从各类原始的业务系统中读取出来,这是全部工做的前提。数据抽取要作到既能知足决策的须要,又不影响业务系统的性能,因此进行数据抽取的时候须要制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。事务
数据转换是按照预先设定的规则将抽取的数据进行转换,使原本异构的数据格式可以统一块儿来
例如:在业务系统中原本不存在的指标须要在转换过程当中计算衍生出来。
数据装载是将转换完的数据按照计划增量或所有导入到数据仓库中。通常状况下,数据装载应该在系统完成了更新以后进行。
数据装载包括:基本装载、追加装载、破坏性合并和建设性合并等方式。
所谓从属就是指它的数据直接来自中央数据仓库。这种结构能保持数据的一致性,一般会为那些访问数据仓库十分频繁的关键业务部门创建从属数据集市,这样能更好的提升查询操做的反应速度。
独立型数据集市的数据直接来自各个业务系统,用于解决个别部门较为迫切的决策问题。它和企业级数据仓库除了数据量和服务对象上存在差异外,其逻辑结构并没有多大的区别,也许这就是数据集市被称为部门级数据仓库的主要缘由。
(1)数据仓库向各个数据集市提供数据,前者是企业级的,规模较大,后者是部门级的,规模相对较小。
(2)若干部门的数据集市组合在一块儿成为一个数据仓库。数据集市开发周期短、速度快,数据仓库开发周期长、速度慢。
(3)从其数据特征进行分析,数据仓库采用范式设计,可是数据集市中的数据结构采用星型模式。一般数据仓库的粒度要比数据集市的粒度细。
管理元数据主要负责开发、维护数据仓库的人员使用。
维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。如:时间维、地理维等。
维度表能够看做是用户分析数据的窗口,维度表包含事实数据表中事实记录的特性。
事实表与维度表的关系:
粒度:数据细化的级别,粒度越细,数据量越大,存储所需的空间越大,查询性能越慢
层次:举例如:国家-省-市-县等;年-季-月-周-日。
1)事务粒度事实表:好比股票按秒来变化;
2)周期快照:按天、按周、按月等;
3)累积快照事实表:记录肯定周期的数据;
4)原子事实表:细粒度事实表;
5)汇集事实表:汇总事实表;
6)合并事实表;
7)旋转事实表;
8)预链接汇集表;
9)非事实型事实表:没有肯定的事实,存的是外键;
10)切片事实表:把一张大表切成一段时间的;
11)蜈蚣事实表:维度不少;
12)一致性事实
经过最大限度地减小数据存储量以及联合较小的维表来改善查询性能。
雪花模型使用的是规范化数据,也就是说数据在数据库内部是组织好的,以便消除冗余,所以它可以有效地减小数据量