Spark SQL 笔记(10)——实战网站日志分析(1)

1 用户行为日志介绍 1.1 行为日志生成方法 Nginx Ajax 1.2 日志内容 访问的系统属性:操做系统、浏览器 访问特征:点击的 url、从哪一个url 跳转过来的(referer)、页面停留时间 访问信息: session_id, 访问ip, 2 离线数据处理架构 数据采集: Flume: web日志写入到 HDFS 数据清洗:Spark,hive,mapreduce,清洗后能够存放到
相关文章
相关标签/搜索