Spark 08 Spark SQL 实战：日志分析（一）介绍、数据清洗

时间 2019-12-04

标签 spark sql 实战日志分析介绍数据清洗栏目 Spark 繁體版

原文原文链接

代码及测试文件下载java 1 离线数据处理流程 1）数据采集linux Flume：web日志写入到HDFS 2）数据清洗git 脏数据处理可使用Spark、Hive、MapReduce 清洗完以后数据能够放在HDFS 3）数据处理github 按照需求进行业务统计和分析使用Spark、Hive、MapReduce或者其余分布式计算框架 4）处理结果入库web 结果存放在RDBMS、NoSQ

>>阅读原文<<