hadoop离线数据处理架构

数据处理流程 1)数据采集 Flume: web日志写入到HDFS 2)数据清洗 脏数据 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架 清洗完之后的数据可以存放在HDFS(Hive/Spark SQL) 3)数据处理 按照我们的需要进行相应业务的统计和分析 Spark、Hive、MapReduce 或者是其他的一些分布式计算框架 4)处理结果入库 结果可以存放到RDBM
相关文章
相关标签/搜索