点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”算法
做者:Parul Pandey微信
编译:ronghuaiyang
网络
一个推荐系统的精彩概述,描述了如何向市场提供有效的推荐。机器学习
不少时候,人们不知道他们想要什么,知道你展现给他们看:史蒂夫·乔布斯编辑器
这是《The Long Tail》这本书的摘录,做者Chris Anderson:“1988年,一个名叫乔·辛普森的英国爬山者写了一本书叫《Touching the Void》,写了秘鲁安第斯山脉附近的一个悲惨的死亡。它获得了很好的评价,可是,仅仅是适度的成功,它很快就被遗忘了。十年后,一件奇怪的事情发生了。Jon Krakauer写了本《Into Thin Air》,这是另外一本讲述爬山悲剧的书,引发了出版界的轰动。忽然间,《Touching the Void》又开始销售了”。ide
对《Touching the Void》的需求如此之高,以致于过了一段时间,它的销量甚至超过了《Into Thin Air》。但这里到底发生了什么?事实证实,因为这两本书都基于同一个主题,亚马逊认为喜欢《Into Thin Air》的读者也会喜欢Touching the Void》。当人们接受了他们真正喜欢这本书的建议,并所以写了积极的评论,这致使更多的销售最终致使了更多的推荐,从而进入一个积极的反馈循环。这就是推荐系统的力量。性能
推荐系统
推荐引擎试图向人们推荐产品或服务。在某种程度上,推荐系统试图经过向人们提供他们最可能购买或使用的建议来缩小人们的选择范围。从亚马逊到Netflix,从Facebook到Linkedin,推荐系统几乎无处不在。事实上,亚马逊收入的很大一部分来自推荐。像Youtube和Netflix这样的公司依靠他们的推荐引擎来帮助用户发现新的内容。如下是咱们平常生活中的一些建议:学习
Amazon优化
亚马逊利用其数百万客户的数据来肯定哪些商品一般是一块儿购买的,并据此提出建议。亚马逊网站的推荐是基于明确提供的评级、购买行为和浏览历史。网站
Linkedin
Linkedin利用你过去的经验、当前的职位的数据向你推荐可能的工做。
Netflix
当咱们给一部电影打分或在Netflix上设置本身的偏好时,Netflix会利用这些数据以及其余数百名用户的相似数据来推荐电影和节目。这些评级和动做会被Netflix用来提出建议。
Facebook
像Facebook这样的推荐系统并不直接推荐产品,而是推荐相关联的人。
除此以外,Spotify、Youtube、IMDB、Trip Advisor、Google News,等众多平台不断地给出适合咱们需求的建议。
为何要用推荐系统
今天,网上商店蓬勃发展,咱们几乎能够经过点击鼠标获得任何物品。然而,在实体店时代,实体店的空间有限,因此店主只展现最受欢迎的商品。这意味着不少产品甚至没有被展现,即便他们有很好的质量,如书籍或CD。简而言之,店主必须对商品进行预过滤。
然而,在线购物行业改变了这种状况。由于有无限的空间,因此无需预过滤。相反,这致使了一种现象,后来被称为长尾效应。
这一效应意味着,不管是在网上仍是线下商店,都很难找到受欢迎的产品。相反,不那么受欢迎的产品不少,并且只能在网上商店找到,它们最终构成了“长尾”。然而,不受欢迎的产品也多是好的,在网站上找到这样的产品是一项艰巨的任务,须要某种形式的过滤。这样的过滤器实际上构成了一个推荐系统。
推荐系统问题的形式
建立推荐系统主要是为了解决如下两个问题的其中之一:
预测版本
此版本用于预测用户项目组合的评级值。在这种状况下,咱们拥有由用户给出的评分组成的训练数据。其目的是利用这些数据,预测用户未与之交互的项目的评级。
排序版本
坦率地说,没有必要预测用户对特定项目的评分来作出推荐。在线零售商或电子商务公司并不太在乎用户的预测。相反,他们更感兴趣的是列出一份有限的清单,列出最好的礼物送给某我的。此外,客户不想看到系统预测他们对某件商品的评分的能力,他们只想看到他们可能喜欢的东西。
推荐引擎的成功取决于它为人们找到最佳推荐的能力,因此把重点放在人们喜欢的东西上是有意义的,而不是咱们预测人们讨厌的东西的能力。
推荐系统的目的
推荐系统的最终目标是增长公司的销售。要作到这一点,推荐系统应该只向用户显示或提供有意义的项目。Charu C Aggarwal在他的著做《recommendation Systems》中总结了推荐引擎的四个指望目标:
相关性
推荐的项目只有在与用户相关时才有意义。用户更有可能购买或消费他们感兴趣的商品。
新颖性
除了相关性,新颖性也是一个重要因素。若是用户之前没有见过或消费过推荐的商品,那么推荐的商品将更有意义。
意外性
有时推荐一些出人意料的商品也能促进销售。然而,意外与新颖是不一样的。引用做者的话:
“若是附近新开了一家印度餐馆,那么向一般吃印度菜的顾客推荐这家餐馆就是新颖的,但不必定是意外的。另外一方面,当相同的用户被推荐埃塞俄比亚食物时,用户并不知道这种食物可能会吸引她,那么推荐是意外的”.
多样性
此外,增长建议的多样性也一样重要。简单地推荐彼此类似的项目是没有用的。
推荐系统的工做
那么推荐系统是如何工做的呢?假设亚马逊想给你展现图书类别中的前10条推荐。在这里,亚马逊的推荐系统将从你的一些数据开始,从而找出你的我的品味和兴趣。而后,它会将这些关于你的数据与其余像你同样的人的集体行为结合起来,推荐你可能喜欢的东西。可是这些关于你喜欢和不喜欢的数据是从哪里来的呢?
收集用户偏好数据的方法有两种:
显式数据
要求用户以1到5星的评分标准来评价一项内容,或者用“喜欢”或“不喜欢”来评价他们看到的内容,这是一个显式数据收集的例子。在这些状况下,会显式地询问用户是否喜欢某个特定的项目,而后使用这些数据构建该用户感兴趣的概要文件。
然而,有一个缺点,由于不是每一个用户都留下反馈或评级,即便他们留下评级,对于不一样的人可能有不一样的含义。例如,3⭐️评级可能对一我的来讲意味着好,但对另一我的来讲就是通常般。
隐式数据Implicit Data
隐式数据来自用户与站点的交互,并将其解释为感兴趣或不感兴趣的指示。例如,从亚马逊购买产品或观看完整的youtube视频片断被认为是一种积极的兴趣。隐式交互能够提供更多的数据,对于购买数据,它甚至多是更好的数据。
推荐系统的基础模型
在当今的行业中,有许多类型的推荐系统。然而,重要是决定哪一种类型适合咱们的须要以及咱们可使用哪一种数据。选择主要取决于:
咱们想要肯定的,
在咱们的数据中指定了什么类型的关系。
推荐系统所采用的一些共同方法包括:
让咱们对每个都作一个简单的概述
基于内容的过滤
基于内容的过滤包括基于物品自己的属性推荐物品。基于内容的过滤器提出的建议使用我的的历史信息来指导所显示的选择。这样的推荐系统会寻找一我的在过去购买或喜欢的物品或产品之间的类似之处,为未来推荐一些选择。
例如,若是用户喜欢“文学”类别的书籍,那么向用户推荐相同类别的书籍是有意义的。此外,推荐同一年出版的同一做者的书也是一个好主意。这就是基于内容的过滤的工做原理。
基于内容的方法的优势是,咱们实际上不须要不少交互来构建模型,由于咱们只须要关于产品的信息。然而,缺点是,模型没有从交互中学习,所以随着时间的推移,基于内容的系统的性能没有太大的改进。
协同过滤
协同过滤利用许多用户/客户提供的评级的综合能力来提供推荐。这意味着根据他人的协同行为推荐产品。
协同过滤有两种方法:
1. 基于记忆的方法 这也被称为基于邻域的协同过滤算法,其中用户项组合的评级是根据它们的邻域来预测的。这些领域可进一步如下列两种方式之一加以界定:
基于用户的协同过滤:
找到像你这样的人,向你推荐他们喜欢的东西。
基于物品的协同过滤:
推荐那些买了你喜欢的东西的人买的其余东西。
2. 基于模型的方法 使用机器学习方法,将问题做为一个普通的机器学习问题来处理,从而提取评级数据的预测。PCA, SVD,矩阵分解,聚类,还可使用神经网络等。
混合以及基于集成的过滤
基于内容和协同的方法都有各自的优缺点,经过将许多算法结合在一块儿,咱们称之为混合方法,最终能够获得一个更好的系统。混合系统利用物品数据和交互数据提供建议。
使用混合方法的一个很好的例子是Netflix。在Netflix,推荐不只基于人们的观看和搜索习惯(协做系统),还推荐具备类似特征的电影(基于内容)。
评估推荐系统:关于准确性的炒做
用户并不真正关心准确性
没有一种直接的方法来衡量推荐系统的好坏。这一领域的许多研究都倾向于预测用户对全部他们还没有评级的事物的评级,不管是好是坏。但这与现实世界中推荐系统所须要作的很是不一样。度量准确性并非咱们真正想要推荐系统作的事情。那么,为何在推荐系统领域中对RMSE和准确性给予了如此大的重视呢?
嗯,不少均可以追溯到2006年,当时Netflix宣布了著名的100万美圆奖金挑战赛。比赛开始时,他们的RMSE是0.9525,终点线是0.8572或更低。因为奖项的焦点是RMSE,人们只关注它,这种影响一直持续到今天。
有趣的是,通过三年的竞争,大多数算法都没有集成到Netflix中。
你可能想知道,在赢得了一百万美圆以后的两年发生了什么事,…咱们离线评估了一些新方法,可是咱们度量到的准确率的提高并无没有理由把他们放到到生产环境中。
咱们的商业目标是最大限度地提升会员满意度和月订阅率……如今很明显,Netflix的获奖目标,准确预测电影的评级,只是一个有效的推荐系统的许多组成部分之一,它优化了咱们的会员的体验。
结论
在本文中,咱们概述了推荐系统,以及它们如何经过为每一个客户建立个性化的购物体验来提供有效的目标营销形式。可是,咱们没有深刻探讨各类推荐的方法。这是由于每种方法都是至关普遍的,都应该有本身的一篇文章。在下一篇文章中,我将详细讨论推荐方法的工做原理及其优缺点。

英文原文:https://towardsdatascience.com/the-remarkable-world-of-recommender-systems-bff4b9cbe6a7
请长按或扫描二维码关注本公众号
喜欢的话,请给我个好看吧!
本文分享自微信公众号 - AI公园(AI_Paradise)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。