概述
数据仓库概念创始人W.H.Inmon在《创建数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不一样时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。
主题导向(Subject-Oriented)
主题是一个在较高层次上将数据归类的标准,每个主题对应一个宏观的分析领域。有别于通常OLTP系统,数据仓库的资料模型设计,着重将资料按其意义归类至相同的主题区(subject area),所以称为主题导向。举例如Party、Arrangement、Event、Finance、Market、Sales、Product等。
集成性(Integrated)
数据仓库中的数据是从原有分散的数据库中抽取出来的,因为数据仓库的每一主题所对应的源数据在原有分散的数据库中可能有重复或不一致的地方,加上综合数据不能从原有数据库中直接获得,所以数据在进入数据仓库以前必须通过数据加工和集成。这是创建数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构作一个从面向应用向面向主题的转变。
历史性(Nonvolatile)
数据仓库的稳定性是指数据仓库反映的是历史数据,而不是平常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的。
时变性(Time-Variant)
数据仓库中数据的不可更新性是针对应用来讲的,即用户进行分析处理时是不进行数据更新操做的。但并非说,从数据集成入库到最终被删除的整个数据生成周期中,全部数据仓库中的数据都永远不变,而是随时间不断变化的。数据仓库是不一样时间的数据集合,它要求数据仓库中的数据保存时限能知足进行决策分析的须要。
数据仓库的价值
高效的数据组织形式
面向主题的特性决定了数据仓库拥有业务数据库所没法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。由于全部数据在进入数据仓库以前都通过清洗和过滤,使原始数据再也不杂乱无章,基于优化查询的组织形式,有效提升数据获取、统计和分析的效率。
时间价值
数据仓库的构建将大大缩短获取信息的时间,数据仓库做为数据的集合,全部的信息均可以从数据仓库直接获取,数据仓库的最大优点在于一旦底层从各种数据源到数据仓库的ETL流程构建成型,那么天天就会有来自各方面的信息经过自动任务调度的形式流入数据仓库,从而使一切基于这些底层信息的数据获取的效率达到迅速提高。
从应用来看,使用数据仓库能够大大提升数据的查询效率,尤为对于海量数据的关联查询和复杂查询,因此数据仓库有利于实现复杂的统计需求,提升数据统计的效率。
集成价值
数据仓库是全部数据的集合,包括日志信息、数据库数据、文本数据、外部数据等都集成在数据仓库中,对于应用来讲,实现各类不一样数据的关联并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能。
历史数据
记录历史是数据仓库的特性之一,数据仓库可以还原历史时间点上的产品状态、用户状态、用户行为等,以便于能更好的回溯历史,分析历史,跟踪用户的历史行为,更好地比较历史和总结历史,同时根据历史预测将来。数据库