基于用户的推荐协同过滤算法的算法

时间 2019-11-13

原文原文链接

协同过滤推荐算法是最重要的算法，它是基于协同过滤算法的物品分为基于用户的协做过滤算法。算法

本文介绍了基于用户的协同过滤算法。简单的说，给用户u推荐。因此只要找出谁和u课前行为似用户。这与u較像的用户。把他们的行为推荐给用户u就能够。机器学习

因此基于用户的系统过滤算法包含两个步骤：1）找到和目标用户兴趣类似的用户集合 2）找到这个集合中的用户喜欢的。且目标用户没有据说过的物品推荐给目标用户。学习

第一步的关键点在于计算用户之间的类似度。类似度通常经过Jaccard公式或者余弦类似度便可求得，及计算共同拥有行为所占的比重（详细式子google便可。csdn插入公式不方便。。google

。），因此眼下而言，计算用户类似度的复杂度是O（N*N）, N为用户数量。在用户数比較大的站点中不有用。比方亚马逊用户数量确定N>100000。那么这种复杂度是不可接受的。排序

第一步时间复杂度的改进方法：因为很是多用户间事实上类似度是为0的，假设当作是一个N*N的矩阵的话。确定是个稀疏矩阵，那么咱们事实上没有必要浪费计算量在这些0上。咱们可以创建物品到用户的倒查表，及可以依据物品找到所有对该物品有过行为的用户，而后遍历各物品，对一个物品而后找到对该物品有过行为的用户，而后计算这些用户间的行为类似度（共同拥有行为+1。同一时候计算这些用户的行为数）。最后计算两用户间的公有行为占各自行为的比重。class

第一步计算类似度的改进方法：举个样例：假设两人都买过《新华辞典》，并不能说明这两人想像，因为这本书基本上人人都会买，而假设这两人都买过《机器学习》，那么咱们可以确定，这两人在这方面有相同的兴趣爱好。也就是说，越是对冷门物品有相同的行为，就越说明用户的类似性，即在计算用户类似性的时候，需要减小热门物品的影响（经过计算流行度来实现。而后用1/N(i)来计算公共行为比重，N(i)表示流行度，这样。流行度高的物品所占比重就比較低）遍历

第二步则比較简单，选出K个和用户u最类似的用户。把他们喜欢过的物品并且用户u没有喜欢过的物品推荐给u就能够。这里面K的选择很重要。K越大。推荐的结果就越热门，流行度就越高，同一时候覆盖率越低，因为基本推荐的都是流行的物品.方法

第二步评分预測改进方法：通常来讲并不是所有第二步中的物品都会推荐给用户，因为这种物品仍是许多的，通常来讲咱们会选择topN, 选用户可能最感兴趣的N个商品。那么要选择前N个商品，确定是依据评分来进行排序，这样便会遇到一个问题。不一样人的评分基点不一样。比方A评分基点在4，好看的电影评5分，很差看的评3分。但是B基点是2。好看的评3分，很差看的评1分，这种话直接依据评分来计算是不精确的，改进方法是计算用户在基点上的评分，如A对好看的电影给了（5-4）分，对很差看的电影给了（3-4）分，B对好看的电影给了（3-2）分，对很差看的电影给了（1-2）分。这样来看事实上二者对评价这部电影是一流的似的，在影片的计算建议您须要得分的时候，只须要计算平均邻里值加用户的角度（共同海损值计数）项目

基于用户的协同过滤算法在实际不到，部分缘由是由于更多的用户，该算法的复杂度仍是很是高的，在此建议另外一个方面是很难给出推荐理由，人们广泛的行业选择基于项目的协同过滤算法。top