第一章 初识实时流处理

一. 业务现状分析 1.需求 统计某视频学习平台主站上每个(指定)课程访问的客户端(PC/APP)、地域信息分布。 用户每一次在站点上发生点击或搜索是都会产生日志,如何从这个日志里面提取出来这些地域和终端信息呢? 地域信息:由IP进行转换; 客户端:通过useragent获取 以上两个操作都是可以采用离线的方式(Spark/MapReduce)进行统计的。 2.实现步骤 提取出课程编号(URL)、
相关文章
相关标签/搜索