Hadoop入门之推荐系统架构简单解析

大致架构如下图: 主要流程分为离线和实时两个部分: 离线部分:收集日志,然后将日志处理为规定格式(日志清洗)上传到HDFS,然后跑相应的MR.将处理后的数据通过各种算法或者查询计算后的结果存储到方便快速读取的 数据库中(Mysql,redis....),留给后期Web服务查询使用. 实时部分:日志收集处理为实时进行的,使用strom或者spark直接处理执行相应的算法逻辑,得出结果存储到数据库中
相关文章
相关标签/搜索