58招聘数据仓库技术架构图

数据源有三个来源 1.自己的后端表(包括mysql和hive) 2.APP自己的埋点日志 3.其他部门的hive表 ODS层数据抽取 1.Flume抽取埋点日志 2.kafka抽取实时信息并存入HDFS 3.Sqoop抽取mysql表 DW层对数据进行加工 1.spark、hive直接处理表,归类成维度表和事实表 2.spark、MR处理日志文件成事实表 3.sparkstreaming直接处理k
相关文章
相关标签/搜索