Spark 08 Spark SQL 实战:日志分析(一)介绍、数据清洗

代码及测试文件下载java 1 离线数据处理流程 1)数据采集linux Flume:web日志写入到HDFS 2)数据清洗git 脏数据处理 可使用Spark、Hive、MapReduce 清洗完以后数据能够放在HDFS 3)数据处理github 按照需求进行业务统计和分析 使用Spark、Hive、MapReduce或者其余分布式计算框架 4)处理结果入库web 结果存放在RDBMS、NoSQ
相关文章
相关标签/搜索