数据仓库基本概念

###数据仓库 4个特征:数据库

  • 面向主题 :数据仓库侧重于数据分析工做,是按照主题存储的
  • 集成的 :对原有分散的数据库通过加工,汇总和整理获得,消除数据的不一致性,保证数据仓库内的信息是整个企业的一致的全局信息
  • 相对稳定的 :有大量的查询操做,修改和删除操做不多
  • 反映历史变化的 :系统记录过去某一时间点到目前各阶段的信息

存储的数据:数据分析

  • 元数据:数据字典,数据的定义,数据的抽取规则等
  • 数据: 按照元数据的定义格则,通过抽取,清理,转换,集成,按照主题从新组织,依照相应的存储结构进行存储

数据集市

        数据集市能够看作是数据仓库的一个子集,它含有较少的主题,数据量更少;它通常是为了知足企业特定部门的分析需求而专门创建的数据的集合,所以也称为部门级数据仓库,数据来源是数据仓库io

###缓慢变化维         Slowly Changing Dimensions(SCD),维度的属性不是静态的,会随着时间变化发生缓慢的变化。
        处理缓慢变化维一般有三种方式:class

  • 直接覆盖原值
    优势:容易实现 缺点:没有保留历史数据
  • 添加维度行 维度属性发生变化时,生成一条新的维度记录,经过天然健与原维度记录保持关联。
  • 添加属性列
    添加属性列,来记录该属性变化前的值,而本属性直接覆盖。
    缺点:只保留了最后一次变化信息

###退化维度
        保存在事实表中,是事实表的一个属性,可是不须要对应的维度表。im

相关文章
相关标签/搜索