先介绍一下集中主流的数仓架构
- lambda
缺点:有离线和实时两套代码,运维和开发成本高。对资源的占用高。
- kappa
缺点:业务变更时,需要重新编写代码。并且保证消息队列中的消息存放一定的时间。新启动一个任务,从某个历史时间消费消息队列中的数据,直到新任务消费消息的偏移量和旧任务消费齐平的时候。就可以停掉旧任务。旧任务产生的结果表就可以删除。
- 实时OLAP变体
他和kappa架构不同的是,只需要用flink做轻度的聚合,使用OLAP引擎来应对各种业务需求。
- 三种架构的对比
- 持续更新。。。