1:引言
a:人类对数据的管理经历了人工管理,文件系统管理,数据库系统管理三个阶段,数据库管理实现了对数据的永久存储,有序组
织和共享。
b:在数据库系统管理阶段的早期,人们对数据的使用主要集中在crud。
c:当数据积累到必定程度时,人们但愿对数据进行统计,多维分析,甚至挖掘来产生更多的价值,这时候,传统的操做型数据库
已经没法知足这一需求,所以便产生了数据仓库。
d:传统的数据库与数据仓库在存放的数据特征,性能要求,应用范围,面向人员等方面均有差异。
2:两种数据处理模式:操做性数据处理和分析型数据处理
计算机系统中存在着两种不一样的数据处理模型:操做性数据处理和分析型数据处理,又分别称为联机事务处理和联机分析处理。
A: 操做型数据处理:是指对数据库联机的平常操做,主要完成数据的收集,整理,存储以及增删改查等操做,主要由通常人员和
基层管理人员完成。
B: 分析型数据处理:是指对数据的再加工,一般是对海量的历史数据查询和分析,从中获取信息,主要由分析人员和中高级管理
人员完成。
3:两类数据:操做型数据和分析型数据
两种数据操做模式对应两类数据:操做型数据和分析型数据。
操做型数据:细节的,当前的,可更新的,事务驱动,一次操做数据量小,操做简单,一个时刻操做一个单元
分析型数据:综合的,历史的,可修改的,分析驱动,一次操做数据量大,计算复杂,一个时刻操做一个集合
操做型数据:主要应用于企业的平常事务处理,数据库中存放的是细节的数据,也是当前的数据,反映的是最近一次修改的结
果。
对数据库的操做主要是数据的增删改查,数据库中的数据能够修改,数据的组织以方便事务处理,提升事务性能处理
为主。
分析型数据处理:主要用于企业的管理工做,数据库中主要存放历史数据和综合数据,当数据的操做主要集中在查询和统计分
析时,
须要涉及大量数据,数据的组织方式主要以方便查询分析为主要目标,为了提升查询效率容许存在必定的数据冗余。
4:数据的局限性
传统的数据库在操做型数据处理上取得了巨大的成功,可是在分析型数据处理上遇到了瓶颈。
1):数据的分散。操做型数据处理每每只须要涉及一个部门业务或者一个系统数据,所以如今的企业数据是分散在各个操做
型数据库,
而分析型操做每每面向整个企业,跨部门进行。
2):数据不一致问题。从各个操做型数据库中抽取数据会存在数据不一致的问题,好比同名异义,异名同义,单位不统一,
字长不一致等,
所以在分析操做以前必须首先对这些数据进行预处理。
3):历史数据问题。分析型数据操做通常须要大量的历史数据,但操做型数据库通常存放的是短时间的数据。
4):数据粒度的问题。分析型操做每每关注的是综合数据,可是操做型数据库每每存放的是细节数据,若是分析前对细节数
据进行综合,会
严重影响分析的效率。
所以,为了克服以上困难,使两种数据操做都能有效的进行,就产生了数据仓库。
总结:数据库和数据仓库分工不一样,数据库存放操做型数据,用于操做型数据处理,关注事务处理效率;
数据仓库存放分析型数据,用于分析型数据处理,关注的是分析和查询的效率;
二者功能不一样,用途不一样,所以结构也会不一样。
5:数据仓库的定义
数据仓库是面向主题的,集成的,不可更新的,随时间不断变化的用来更好的支持企业或组织决策分析的数据集合。
数据仓库的特征:
面向主题的
集成的
不可更新的
随时间不断变化的
数据仓库的用途:面向企业决策分析。
简单来说,数据仓库就是一种面向决策主题的,从多个数据源集成数据的,拥有当前数据,细节级和综合级的历史数据,以查询
和分析为主的
数据库系统,目的是支持企业决策。
6:数据仓库数据的特征
1):面向主题的
面向主题的数据组织方式是相对面向应用的数据组织方式而言的。
什么是面向主题的数据组织方式?
面向主题的数据组织方式就是在较高层次上对分析对象的数据的一个完整的,一致的描述,能完整,统一的刻画各个分析对
象所涉及的各项
数据,以及数据之间的联系。
企业在信息化建设时一般会按照业务类别来创建子系统,好比采购,销售,库存,人事,财务,子系统背后就是各个操做型
数
据库。基于这样的
数据环境,若是须要对“顾客”这一对象进行相关的分析处理,就须要从各个操做型数据库中提取数
据,
即
使可以取出来也会面临
各类问题,好比数据不一致。这就是面向应用的数据组织方式,显然不能知足分析须要。
面向主题就是根据分析的须要,将分析对象所涉及的数据以及数据之间的联系从企业各个方面进行收集,汇聚,造成一个完
整
的
,一致的,统一的
数据集合。这里的主题就是分析对象,好比“顾客”,“商品”,“供应商”。
面向应用侧重于作什么,面向主题侧重于谁来作。
面向主题的数据组织方式强调的就是,要造成关于主题一致的信息集合。
2):集成的
因为数据仓库中的数据是按照主题组织的,所以所涉及的数据来源于各个操做性数据库,数据文件胡总和网络。因为数据来
源
不一样,就可能存在
不一致的状况,好比同名异义,异名同义,单位不一样,字长不一样,所以在进入数据仓库前就须要对数据
进行
清
洗,转换等操做。又由于以前的数据
是面向应用的,所以须要将数据从面向应用到面向主题进行转变。而数据仓库中
不只有
细节数据,还须要有大量的综合数据,因此就须要对数据进行
综合,计算。完成这几步后,数据才能被加载到数据仓
库中去。
3):不可更新的
不可更新是指数据一旦进入到数据仓库中去,就不容许修改,而且会被长期保留。
数据仓库中的数据反映的是一段至关长时间内的历史数据,通常会按照必定的周期进行刷新,加载。
4):随时间不断变化的
数据仓库会随着时间的变化不断增长新的数据,由于数据仓库中的数据是来源于操做型数据库等数据源的历史数据和综合性
数据,因此须要按期去捕获
这些数据源中的新数据,将其加载到数据仓库中去。
数据仓库中的数据会有必定的存储期限,当超过这个期限后,数据就会被删除。
数据仓库中有大量的综合数据,而不少数据是按照时间进行组织的,好比日记录,月记录,因此就须要按照必定的时间周
期,
定
期加载这些数据。
7:数据仓库的功能
数据仓库是一种数据存储,将不一样来源的异构数据进行清洗,转换,加工,集成并存储起来,支持分析查询需求,从而为企业决策提
供支持。