用户行为数据

用户显性反馈数据：显性反馈行为包括用户明确表示对物品喜爱的行为。主要方式就是评分和喜欢/不喜欢。
用户隐性反馈数据：隐性反馈行为指的是那些不能明确反应用户喜爱的行为。最具表明性的隐性反馈行为就是页面浏览行为。

用户活跃度和物品流行度：长尾分布

通常来讲，不活跃的用户要么是新用户，要么是只来过网站一两次的老用户。那么，不一样活跃度的用户喜欢的物品的流行度是否有差异？通常认为，新用户倾向于浏览热门的物品，由于他们对网站还不熟悉，只能点击首页的热门物品，而老用户会逐渐开始浏览冷门的物品。

用户行为数据设计的推荐算法

基于邻域的方法（neighborhood-based）
隐语义模型（latent factor model）
基于图的随机游走算法（random walk on graph）

其中最主要的方法为基于邻域的算法：

基于用户的协同过滤算法这种算法给用户推荐和他兴趣类似的其余用户喜欢的物品。
基于物品的协同过滤算法这种算法给用户推荐和他以前喜欢的物品类似的物品。

基于用户的协同过滤算法：

(1) 找到和目标用户兴趣类似的用户集合。（类似性计算，基于距离）
(2) 找到这个集合中的用户喜欢的，且目标用户没有据说过的物品推荐给目标用户

改进 1：

若是对用户两两计算类似度，复杂度太高O(n*n) ，所以能够首先计算item-user的倒排表，而后计算用户类似度，这样能够过滤掉共同物品为0的用户

改进 2：

考虑物品自己的流行度，

基于物品的协同过滤算法

(1) 计算物品之间的类似度。
(2) 根据物品的类似度和用户的历史行为给用户生成推荐列表。
共现的几率

改进 1 ：user-item倒排表

改进 2 用户活跃度的影响

隐语义模型

隐语义模型是最近几年推荐系统领域最为热门的研究话题，它的核心思想是经过隐含特征(latent factor)联系用户兴趣和物品。

隐含语义分析技术从诞生到今天产生了不少著名的模型和方法，其中和该技术相关且耳熟能详的名词有pLSA、LDA、隐含类别模型（latent class model）、隐含主题模型（latent topic model）、矩阵分解（matrix factorization）。这些技术和方法在本质上是相通的，其中不少方法均可以用于个性化推荐系统。

隐性反馈数据中，没有负样本只有正样本；在隐性反馈数据集上应用LFM解决TopN推荐的第一个关键问题就是如何给每一个用户生成负样本。

对于一个用户，用他全部没有过行为的物品做为负样本。
对于一个用户，从他没有过行为的物品中均匀采样出一些物品做为负样本。
对于一个用户，从他没有过行为的物品中采样出一些物品做为负样本，但采样时，保证每一个用户的正负样本数目至关。
对于一个用户，从他没有过行为的物品中采样出一些物品做为负样本，但采样时，偏重采样不热门的物品。

对于第一种方法，它的明显缺点是负样本太多，正负样本数目相差悬殊，于是计算复杂度很高，最终结果的精度也不好。对于另外3种方法，Rong Pan在文章中表示第三种好于第二种，而第二种好于第四种。

对每一个用户，要保证正负样本的平衡（数目类似）。
对每一个用户采样负样本时，要选取那些很热门，而用户却没有行为的物品。

LFM和基于邻域的方法的比较

理论基础 LFM具备比较好的理论基础，它是一种学习方法，经过优化一个设定的指标创建最优的模型。基于邻域的方法更多的是一种基于统计的方法，并无学习过程。
离线计算的空间复杂度：LFM大量节省了训练过程当中的内存
离线计算的时间复杂度：在通常状况下，LFM的时间复杂度要稍微高于UserCF和ItemCF，这主要是由于该算法须要屡次迭代。但整体上，这两种算法在时间复杂度上没有质的差异。
在线实时推荐： UserCF和ItemCF在线服务算法须要将相关表缓存在内存中，而后能够在线进行实时的预测。
推荐解释： ItemCF算法支持很好的推荐解释，它能够利用用户的历史行为解释推荐结果。但LFM没法提供这样的解释，它计算出的隐类虽然在语义上确实表明了一类兴趣和物品，却很难用天然语言描述并生成解释展示给用户。

利用用户标签数据

用户用标签来描述对物品的见解，所以标签是联系用户和物品的纽带，也是反应用户兴趣的重要数据源，如何利用用户的标签数据提升个性化推荐结果的质量是推荐系统研究的重要课题

数据稀疏性

对于新的物品或者用户，标签数量很是少，此时须要对标签进行扩展 ---基于标签的类似性

标签清理：除去词频很高的中止词、同义词等；类比天然语言处理

## 利用上下文信息

时间上下文信息

用户兴趣是变化的
物品也是有生命周期的
季节效应

系统时间特性的分析:

数据集天天独立用户数的增加状况
系统的物品变化状况：网站新闻增加状况，商品增加状况等
用户访问状况: 用户的平均活跃天数

时间上下文推荐算法：

最近热门推荐
时间上下文itemCF算法：最经常使用的是基于物品的个性化推荐系统

物品类似度
在线推荐：用户近期行为更关键

时间上下文相关的userCF算法

用户兴趣类似度
类似兴趣用户最近行为

地点上下文

推荐系统实践

推荐系统测评

用户行为数据

隐语义模型

推荐系统冷启动问题

利用用户标签数据

## 利用上下文信息