数据仓库是一种关系数据库模式,其中保存了来自一个或者多个源数据库的历史数据和元数据。数据仓库的目的是便于将数据的报告和分析汇总到多个层次。数据库
或者更简单点:是做为一个存放企业各个领域的数据的单独且有组织的库。工具
典型的数据仓库有如下的一些特色:oop
涉及多个主题域接口
有十分详细的信息hadoop
集合来自不一样数据源的数据数据
不必定使用维模型,但提供维模型集合
另外一方面,数据集市是数据仓库的一个访问层,用于从数据仓库抽取相关的数据给用户,数据集市是数据仓库的一个子集,一般面向特定的业务线或者团队(财政部门、市场部门、销售部门等都有他们本身的数据集市data mart).data
数据集市:一个独立的数据集市是更大的数据仓库的一个逻辑子集或者物理子集,一般是相互独立的,由于数据模式和模型彼此间是不一样的。微软提出的Tabular模型则是的你能够直接从数据仓库抽取数据而无需从数据集市抽取数据。模型
本人使用 Hive搭建数据仓库,hadoop生态圈能够提供不少工具和接口进行搭建企业级数据仓库。ab