目前,丁香人才和丁香园app都已接入新版的个性化推荐系统,而且已经取得至关不错的效果。本文咱们就来分享一下推荐系统的架构设计。html
目前,丁香人才和丁香园app都已接入新版的个性化推荐系统,而且已经取得至关不错的效果。本文咱们就来分享一下推荐系统的架构设计。html
总体架构
总体架构图mysql
推荐系统能够说是一个闭环的生态系统了。从总体架构图中,咱们就能够看出来,推荐列表从RankServer
产生,用户点击推荐列表产生的日志又副作用于画像系统的更新,模型训练,新的推荐算法的实验,以及BI
报表的生产,而这些又都是RankServer
依赖的模块。web
Rank Server
Rank Server算法
各部分说明
Rank Server
是推荐系统最为关键的一环,下面咱们将详细介绍各个模块的功能。sql
ABTest:
ABTest
主要包含了下列几点功能:缓存
支持定向策略服务器
支持多种实验微信
支持灰度发布架构
支持
Rolling Update
app
为用户/内容打标签,包括召回,配比,排序三个参数。具体作法能够利用uuid将用户/内容切分为多个bucket。每一个bucket分配不一样的策略。非法id随机分配。添加配置白名单,方便测试。
ABTest
1.召回:召回模型编号,配比:多个召回模型所占百分比,排序:排序算法编号。
2.AB测试元数据写zookeeper
。(配置量小,实时生效)
召回配比排序元数据写mysql
。
召回模型
从全量候选集直接获取召回模型所需数据每每不容易,能够经过标签检索来筛选初步数据。因此召回模块就是为了完成候选集范围缩小的目的。
召回模型主要分为两类:batch
和streaming
批处理的召回模型对历史的数据作分析。召回结果写cache。如协同过滤,关联规则等。
流式计算对实时数据源(如最新,最热,优质)分析。(主题模型)
NOTE: 若是召回模型没法为当前用户/内容做出推荐时候,采用候补资源推荐
下图显示的是典型的在线召回模型
典型的在线召回
上图显示是一个典型召回策略,咱们会在用户画像中记录用户的兴趣标签及其权重,缓存服务存储了兴趣标签的实时推荐列表倒排索引,最后咱们根据用户的兴趣标签召回对应的标签倒排索引。在具体实现时,咱们采用了
Elasticsearch
,做为咱们倒排索引存储服务。
下图显示的是典型的离线召回模型(User-Base CF)
典型的离线召回
排序
rerank
模型也能够分为离线模型(如LR
,GBDT
等)和在线模型(如FTRL
等)两种。
排序模块根据ab测试为推荐数据打的标签(排序字段),调用不一样的排序模型服务对召回结果集进行排序,得到最终有序结果集。
排序模块可能涉及多种类型特征,特征获取和计算关系到Rank Server
总体的响应速度。
NOTE: 在具体实现过程当中,
rerank
模块也是咱们遇到问题比较多的一个模块。这里我总结几个关键点:
并行特征获取。 正如咱们上述中提到的,每每一次排序,咱们可能就须要获取多达上千篇内容的多维特征,因此并行特征获取是提高总体相应时间的关键一步。在具体实现上,参考了[1]的设计,采用
akka
进行并行特征获取。利用GPU加速排序计算。 排序模型每每涉及到高纬矩阵计算,一开始咱们将
tensorflow
模型放在了cpu
服务器上,实验发现效果至关不理想,最终咱们选择了gpu
服务器,获得了10+倍的性能提高。
CPU 32核 |
GPU |
|
300篇帖子 |
200- 300ms |
10ms |
500篇帖子 |
500-600ms |
20ms |
1000篇帖子 |
800+ms |
40ms |
压力测试 |
100qps 1s |
200qps 400-500ms |
tensorflow在cpu/gpu服务器上的性能对比
排序模型评估
离线部分:上线以前须要计算AUC
/MAP
,达到上线标准以后,方可手动上线。
在线部分:经过ABtest
观察一段时间,对比实际效果。
黑名单
黑名单由两部分组成,一部分是用户浏览的历史记录,一部分是运营人员定义的人工规则。
重复推荐可能对推荐结果带来影响,以及很差的用户体验,因此有必要过滤掉最新点击的topN用户/内容。
运营人员可能须要屏蔽一些用户/内容。
推荐系统指标
因为推荐系统依赖众多的外部服务,这就增长了系统维护的复杂性,肯定一个推荐系统是否健康指标,咱们能够将其分为两大类,程序指标和数据指标。
程序指标
程序指标咱们收集的比较简单,包括CPU
,Memory
使用率和GC
相关指标。
CPU
Memory
GC Time
数据指标
数据指标比较复杂,这里我就放出一些关键的指标数据。
召回过滤比例
召回率
召回排序分钟级别统计
多个召回的曝光点击率对比
Pi
推荐系统管理后台
因为推荐系统的复杂性,因此很难在线下环境中,提供一套完整的测试环境,因此在咱们的场景,咱们须要一个端到端的推荐请求模拟平台,Pi
管理后台也由此运营而生。
推荐模拟
经过Pi
后台,咱们能够获取用户推荐结果,直观的判断用户推荐结果是否符合咱们的推荐预期。
模拟用户推荐请求
Reference
[1]美团排序线下篇 http://tech.meituan.com/rerank_solution_offline.html
[2]美团排序线上篇 http://tech.meituan.com/meituan-search-rank.html
[3]达观搜索引擎排序案例 http://www.infoq.com/cn/articles/a-search-engine-scheduling-architecture-for-reference
[4]job recommendation https://www.oreilly.com.cn/ideas/?p=424
[5] 今日头条推荐算法原理 https://36kr.com/p/5114077.html
本文分享自微信公众号 - 浪尖聊大数据(bigdatatip)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。