《推荐系统》阅读笔记

蒋凡翻译的这本:https://book.douban.com/subject/24746415/算法

 

1. 引言安全

协同过滤:适合有大量用户的行为信息库的状况网络

- 若是用户在过去有相同的偏好(浏览、买过相同的书),那么他们在将来也会有类似的偏好框架

基于内容推荐:适合物品属性易获取、用户量较少的状况(用户偏好也能获取)学习

- 须要有物品的描述(好比书:体裁、主题、做者)网站

- 无需大规模用户,有物品属性便可推荐翻译

基于知识推荐:适合没法依赖用户行为记录,能获取物品专业特征的方法排序

- 消费类电子产品:大量的单次购买者,没法依赖购买记录,可以获取专业性的优质特征游戏

- 因果知识(好比数码相机:分辨率、重量、价格)图片

- 明确的约束条件描述场景、系统询问用户特征的相对重要性

混合推荐

 

2. 协同过滤推荐

基于用户的最近邻推荐(user based,user cf)

- 对当前用户没见过的每一个产品p,利用其近邻对p的评分计算预测值

- 用户类似度计算:Pearson相关系数,考虑到了用户评分标准不相同的事实

- 打压热门物品推荐:逆用户频率(iuf)

- 样本扩展:强调接近+1和-1的值(好比*2.5)

- kNN:k=20~50

基于物品的最近邻推荐(item based,item cf)

* Amazon用其推荐书、CD

大型电商网站:百万计用户,难以作到实时计算user cf的预测值

- 简单地找到user对类似物品的评分

- 余弦类似度方法比Pearson相关系数表现更好

- 近邻数量受限于当前用户评过度的物品个数

- 物品的类似度更稳定

获取评分

- 收集显式评分:来自种子用户

- 数据稀疏、冷启动:利用用户画像(性别、年龄、教育程度、兴趣)

- 看作图分析问题:考虑长度为3的路径,缺点是计算代价高

- 给缺乏评分的物品赋给缺省值

基于模型和预处理的方法

- 矩阵分解:MF、SVD、pLSA

- 关联规则挖掘:Apriori(高支持度和可信度的规则),离线计算,热门电影领域效果好

- 预测问题看做分类:NB、Laplace平滑

- 其余:聚类(k-means)、BN

近期实际的方法

- 简单的方法:SlopeOne,计算用户在不一样物品评分上的偏移量,结合当前用户评分预测

- 更多数据支持的偏移量更大权重

- 推荐方法与已有方法效果至关

Google新闻个性化推荐引擎

- 基于活跃用户的点击历史

- 更大社区历史信息的协同

- 实时用户反馈

- pLSI和MinHash,使用MapReduce计算,最后线性组合

- 候选集合:语言偏好、新闻时效性、用户个性化设置、同类别其余用户的点击历史(热度)

- 个性化方法明显占优(38%),除了极度热门新闻

小结

- 没有“银弹”方法

 

3. 基于内容的推荐

- eg:书的种类、电影的演员表、文章关键词

- 候选物品和用户过去喜欢的物品的类似度(好比书的体裁、文章关键词的Jaccard系数)

- 向量空间模型、tf-idf

- 删除停用词、精简关键词数量、用词典删除无关领域的词、使用短语、关键词上下文包含否认修饰

- 先使用短时间模型中的近邻、不然使用长期模型

- 相关性反馈:正反馈更有价值

- 用idf衡量的前10~20个词

- 多项式模型作文本分类比伯努利模型明显好

- 决策树学习器(ID三、C4.五、RF)在特征较少时效果更好

- 特征选择:卡方检验(基于互信息,越高越相关)、Fisher判别

- 最重要因素是训练集规模

- Bayes和Rocchio老是表现好、NB预测更快

- 局限:缺乏新颖性,商业领域几乎没有仅基于内容的推荐系统,通常混合CF

 

4. 基于知识的推荐

- 识别评价范式:好比兆级像素、光学变焦、液晶显示屏尺寸、录像功能、价格

- 知识获取:深刻的领域知识、推荐技术

 

5. 混合推荐

加权、交叉、切换

 

6-7. 推荐系统的解释、评估

- 使用离线试验评估

- 响应时间、可扩展性、峰值负载、可靠性

- 平均绝对偏差MAE、准确率召回率PR、F一、ROC

 

8. 案例分析:移动互联网个性化游戏推荐

好的经验:

- 热销物品放在推荐列表中

- CF有助于销售转化率、多处展现位效果好

- 个性化方法更好(甚至是SlopeOne方法)

- 混合不一样推荐方法有助更多浏览和销售

- 购买完以后显示热销效果差

- 用户购买完后首先想看的是免费游戏

- 不管是否个性化,图片转化率显著高于文本连接

- 个性化相对非个性化策略优点高于更丰富的展现样式

- 用户喜欢新的物品或和历史行为类似的物品

- 推荐列表个性化技术显然超过人工推荐

总体效果

- 浏览量:个性化算法赛过非个性化(热销)

- SlopeOne和简单的基于用户评分排序引发最多用户关注,进而增长购买和下载

- 用户倾向于购买与其偏好类似的物品

小结

- 用户没有强烈预期时:推荐没见过的类别,CF方法较好

- 用户有必定预期时:倾向于与偏好类似的物品

- 售后情形:不倾向与当前购买类似的物品

- 使用移动设备提交评分更慎重、参与积极性低

- 新物品严格按时间排列更好

- 基于内容和物品的方法明显更好

 

9. 针对协同推荐系统的攻击

反做弊

 

10. 在线消费决策

心理学:

- 环境效应:额外低质量物品加入展现会改变选择几率、增长选择信心和购买意愿

- 首位/新近效应:位于列表首尾的位置比中部更容易被记住(好比网页搜索)

- 框架效应:若是用户不是特别在行,展现方式会影响用户关注点和决策;“损失厌恶”心理

- 尽快决策:人们更喜欢预测并尽量少作信息搜索;进度提示

- 从众:展现用户评分很容易影响用户信念

- 反馈:若反馈而改善推荐效果会更频繁反馈

- 信任:交易安全性、保护隐私、平台信誉、推荐效果(很是依赖UI:解释、产品对比,算法:结果符合偏好),体如今用户留存

- 文化差别:西方的我的主义和东方的集体主义

 

11. 推荐系统和下一代互联网

考虑社交关系

重视深度用户的评论

使用用户评论和标签

 

12. 普适环境中的推荐

上下文感知推荐(区分用户短时间兴趣)

- 你在哪里、你和谁在一块儿、附近有那些资源

- 物理上下文:位置、时间

- 环境上下文:天气、光线、声音强度

- 信息上下文:股票报价、体育比分

- 我的上下文:健康、心情、计划、活动

- 社交上下文:团队活动、社交活动、和谁在一间屋子里

- 应用上下文:电子邮件、访问站点

- 系统上下文:网络连通情况、打印机状态

应用领域

- 选择餐馆:我的偏好和就近程度加权

- 旅游:天气(时间、季节)、新闻、交通、导航(距离)、安全;大部分用户但愿自主决定考虑哪些因素

相关文章
相关标签/搜索