数仓技术架构

数据同步工具 datax 也有集群模式了,现在性能应该还好。 sqoop 就是调度了map任务 集群加机器了记得要在数据库那边加入白名单 Flume 几十上百台日志服务器的话,直接往hdfs上写也不现实,一般会做两层flume,第二层放个三两台再往hdfs写。 一般会后面布kafka,实时离线都从kafka消费,保证数据统一。 调度系统 Oozie 与hadoop、hive、spark有版本依赖关
相关文章
相关标签/搜索