千亿项目理解

数仓项目架构: 项目流程 1、原始数据在mysql存储 2、使用kettle将数据在mysql同步到数据仓库(hive),(同步分为第一次全量+每天的增量=拉链表(目标:既能够保存历史的数据,又不会有数据冗余)) 3、hive数仓内结构 Hive内部结构: ODS: 存储在数据源同步过来的数据 DW:对ODS存储的数据进行过滤、填充,预计算,以及数据的拉宽。(拉宽:就是将业务上需要的字段,但是字段
相关文章
相关标签/搜索