推荐系统-协同过滤

时间 2019-12-05

标签推荐系统协同过滤栏目快乐工作繁體版

原文原文链接

1、基本介绍

1. 推荐系统任务 html

推荐系统的任务就是联系用户和信息一方面帮助用户发现对本身有价值的信息,而另外一方面让信息可以展示在对它感兴趣的用户面前从而实现信息消费者和信息生产者的共赢。前端

2. 与搜索引擎比较 ios

相同点：帮助用户快速发现有用信息的工具 web

不一样点：和搜索引擎不一样的是推荐系统不须要用户提供明确的需求而是经过分析用户的历史行为来给用户的兴趣建模从而主动给用户推荐出可以知足他们兴趣和需求的信息。算法

3. 长尾理论 网络

长尾讲述的是这样一个故事：之前被认为是边缘化的、地下的、独立（艺人？）的产品如今共同占据了一块市场份额，足以可与最畅销的热卖品匹敌。架构

wiki连接：https://wiki.mbalib.com/wiki/%E9%95%BF%E5%B0%BE%E7%90%86%E8%AE%BA 工具

长尾头部的商品每每表明了绝大多数用户的需求而长尾中的商品每每表明了一小部分用户的个性化需求。所以若是要经过发掘长尾来提升销售额就必须充分研究用户的个性化兴趣。而这正是个性化推荐系统主要解决的问题。
推荐系统经过发掘用户的行为找到用户的个性化需求从而将长尾中的商品准确地推荐给须要它们的用户帮助用户发现那些他们感兴趣但很难发现的商品。性能

4. 推荐系统应用 测试

· 电子商务

· 电影和视频网站

· 个性化音乐网络电台

· 社交网站

· 个性化阅读

· 个性化邮件

· 个性化广告

5. 推荐系统架构

2、推荐系统评测

推荐系统评测即评测一个推荐系统是否好用。好的推荐系统不只仅可以准确预测用户的行为，并且可以扩展用户的视野，帮助用户发现他们可能会感兴趣，但却不那么容易发现的东西，从而经过推荐系统增长了收入效益。例如你预测一个用户未来会买牙刷，预测显然是准确的，可是因为用户暂时不须要或者在须要的时候并无选择你的商品，这样的话就没有为你增长收入，所以这就不能算得上一次好的推荐。

一个完整的推荐系统通常存在3个参与方：用户、内容提供者、业务前端（Android、ios、web）

1. 推荐系统实验方法

a、离线实验
离线实验利用离线数据训练并测试推荐模型效果，好处是不须要用户真实参与，能够快速地测试大量算法，但同时也会忽略在线系统带来的因素。
b、用户调查
对一些真实用户作一些有关推荐系统的测试调查，根据用户的反映获取推荐系统的性能指标。它是推荐系统评测的一个重要工具，能够获取离线实验不能获得的用户真实体验，可是其成本较高，须要较多的人力时间来完成。
c、在线实验
在推荐系统正式上线前，能够对系统作典型的AB测试，它经过必定的规则将用户随机分红几组，并对不一样组用户采用不一样算法，而后统计不一样组用户的评测指标，进而分析推荐系统的性能。其优势是能够公平获取不一样算法的在线性能指标，缺点是周期较长，须要长时间的实验才能获得可靠的结构。

2. 评测指标——用户满意度

用户满意度是评测推荐系统最重要的指标，只能经过在线实验得到。通常经过对用户行为的统计得到，好比用户点击率、推荐购买率、停留时间等；也能够经过收集用户反馈得到，如让用户评价推荐的物品是否使人满意。

3. 评测指标——预测准确度

预测准确度是推荐系统最重要的离线评测指标。经过离线训练数据训练出用户的行为和兴趣模型，并预测用户的行为，计算预测行为与测试集上的实际行为的重合度做为预测准确度。

a) 评分预测

不少提供推荐服务的网站有一个让用户给物品打分的功能，当知道了用户对物品的评分，就能够从中习得用户的兴趣模型，并预测该用户在未来看到一个他没有评分过的物品时，会给物品评多少分。

评分预测的准确度通常经过均方根偏差（RMSE）和平均绝对偏差（MAE）计算。

b) TopN 推荐

TopN推荐的准确率通常经过：准确率（precision）/召回率（recall）度量

令R（u）是根据用户在训练集上的行为给用户作出的推荐列表，T（u）是用户在测试集上的行为列表，那么推荐结果的

召回率定为：

准确率为：

这里用更加形象的方法表示，将数据分红四个部分 A，B，C，D
R(u) = A + B;

T(u) = A + C;

Recall = A / (A + C)

Precession = A / (A + B)

4.评测指标——覆盖率

覆盖率描述了推荐系统对物品长尾的发掘能力，高的覆盖率表示推荐系统能够推荐一些长尾部分的物品，这是物品提供商比较关心的。对覆盖率一个简单定义为推荐系统可以推荐出来的物品占总物品I的比例，假设系统用户集合为U，为每一个用户u推荐物品为R（u）,那么推荐系统覆盖率能够表示为：

5.评测指标——多样性

用户的兴趣是普遍的，所以推荐系统推荐给用户的物品也应该是多样的。好比，用户爱看的书不只有历史文学书，也可能有心理专业书，且看的比例约为7：3，因此在推荐的时候，也应该考虑为用户推荐这两类书籍，且比例也约为7：3。

6.评测指标——新颖性

新颖性即推荐给用户他们以前不知道的物品，将用户有过行为的物品从推荐表中剔除掉。评测新颖性的最简单方法是利用推荐结果的平均流行度，即推荐的物品的平均热门程度越低，其新颖性越高。

7.其余

3、协同过滤介绍

协同过滤就是指用户能够齐心合力，经过不断地和网站互动，使本身的推荐列表可以不断过滤掉本身不感兴趣的物品，从而愈来愈知足本身的需求。

显性反馈：用户明确表示对物品喜爱的行为。这要方式是评分和喜欢/不喜欢。

隐形反馈：不能明确反应用户喜爱的行为。（购买日志、阅读日志、浏览日志）

四. 基于用户的协同过滤算法（UserCF）

算法核心：当一个用户A须要个性化推荐时，能够先找到他有类似兴趣的其余用户，而后把那些用户喜欢的、而用户A没听过的物品推荐给A。

a) 找到和目标用户兴趣类似的用户集合

b) 找到这个集合中的用户喜欢的，且目标用户没有据说过的物品推荐给目标用户。

步骤(a)的关键就是计算两个用户的兴趣类似度。这里，协同过滤算法主要利用行为的类似度计算兴趣的类似度。给定用户u和用户v，令N(u)表示用户u曾经有过正反馈的物品集合，令N(v)为用户v曾经有过正反馈的物品集合。那么，咱们能够经过以下的Jaccard公式简单地计算u和v的兴趣类似度或者经过余弦公式：

jaccard 余项公式：

这个一个行为记录咱们能够根据余弦公式计算以下

上述算法很简单可是计算量较大，由于须要全部用户以前的复杂度 n（n-1）/2。下面这种计算用户类似度算法经过空间换时间。

首先创建物品到用户的倒排表，而后统计每两个用户的公共物品数量（以下图所示）。

计算u对物品i的感兴趣程序：

获得用户之间的兴趣类似度后，UserCF算法会给用户推荐和他兴趣最类似的K个用户喜欢的物品。上面右边公式度量了UserCF算法中用户u对物品i的感兴趣程度：其中，S(u, K)包含和用户u兴趣最接近的K个用户，N(i)是对物品i有过行为的用户集合，Wuv是用户u和用户v的兴趣类似度，Rvi表明用户v对物品i的兴趣，由于使用的是单一行为的隐反馈数据，因此全部的Rvi=1。

上述推荐算法缺陷：

若是两个用户都曾经买过《新华字典》，这丝绝不能说明他们兴趣类似，由于绝大多数中国人小时候都买过《新华字典》。但若是两个用户都买过《数据挖掘导论》，那能够认为他们的兴趣比较类似，由于只有研究数据挖掘的人才会买这本书。换句话说，两个用户对冷门物品采起过一样的行为更能说明他们兴趣的类似度。所以，John S. Breese在论文①中提出了以下公式，根据用户行为计算用户的兴趣类似度：

计算用户类似度的改进算法：

分子中的倒数惩罚了用户u和用户v共同兴趣列表中热门物品对他们类似度的影响。N(i)是对物品i有过行为的用户集合，越热门，N(i)越大

五. 基于物品的协同过滤算法(ItemCF)

算法核心思想：给用户推荐那些和他们以前喜欢的物品类似的物品。

基于物品的协同过滤算法主要分为两步：

第一步： 计算物品之间的类似度；

其中，|N(i)|是喜欢物品i的用户数，|N(j)|是喜欢物品j的用户数，|N(i)&N(j)|是同时喜欢物品i和物品j的用户数。

从上面的定义看出，在协同过滤中两个物品产生类似度是由于它们共同被不少用户喜欢，两个物品类似度越高，说明这两个物品共同被不少人喜欢。

这里面蕴含着一个假设：就是假设每一个用户的兴趣都局限在某几个方面，所以若是两个物品属于一个用户的兴趣列表，那么这两个物品可能就属于有限的几个领域，而若是两个物品属于不少用户的兴趣列表，那么它们就可能属于同一个领域，于是有很大的类似度。

(用户活跃度大的用户可能喜欢列表中有不少商品，会影响ItemCf算法计算结果准确性，后面优化算法会增长一个用户活跃度分子)

举例，用户A对物品a、b、d有过行为，用户B对物品b、c、e有过行为，等等；

依此构建用户——物品倒排表：物品a被用户A、E有过行为，等等；

创建物品类似度矩阵C：

其中，C[i][j]记录了同时喜欢物品i和物品j的用户数，这样咱们就能够获得物品之间的类似度矩阵W。

在获得物品之间的类似度后，进入第二步。

第二步：根据物品的类似度和用户的历史行为给用户生成推荐列表；

ItemCF经过以下公式计算用户u对一个物品j的兴趣：

其中，Puj表示用户u对物品j的兴趣，N(u)表示用户喜欢的物品集合（i是该用户喜欢的某一个物品），S(i,k)表示和物品i最类似的K个物品集合（j是这个集合中的某一个物品），Wji表示物品j和物品i的类似度，Rui表示用户u对物品i的兴趣（这里简化Rui都等于1）。

该公式的含义是：和用户历史上感兴趣的物品越类似的物品，越有可能在用户的推荐列表中得到比较高的排名。

下面是一个书中的例子，帮助理解ItemCF过程：

至此，基础的ItemCF算法小结完毕。

下面是书中提到的几个优化方法：

（1）、用户活跃度对物品类似度的影响

即认为活跃用户对物品类似度的贡献应该小于不活跃的用户，因此增长一个IUF（Inverse User Frequence）参数来修正物品类似度的计算公式：

用这种类似度计算的ItemCF被记为ItemCF-IUF。

ItemCF-IUF在准确率和召回率两个指标上和ItemCF相近，但它明显提升了推荐结果的覆盖率，下降了推荐结果的流行度，从这个意义上说，ItemCF-IUF确实改进了ItemCF的综合性能。

（2）、物品类似度的归一化

Karypis在研究中发现若是将ItemCF的类似度矩阵按最大值归一化，能够提升推荐的准确度。其研究代表，若是已经获得了物品类似度矩阵w，那么可用以下公式获得归一化以后的类似度矩阵w'：

最终结果代表，归一化的好处不只仅在于增长推荐的准确度，它还能够提升推荐的覆盖率和多样性。

用这种类似度计算的ItemCF被记为ItemCF-Norm。

参考：

http://www.javashuo.com/article/p-ywfdznkd-bn.html

https://blog.csdn.net/u011630575/article/details/78649331

<<推荐系统实战>>