探索推荐引擎内部的秘密

时间 2019-11-13

标签探索推荐引擎内部秘密繁體版

原文原文链接

“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制，实现方法，其中还涉及一些基本的优化方法，例如聚类和分类的应用。同时在理论讲解的基础上，还会结合 Apache Mahout 介绍如何在大规模数据上实现各类推荐策略，进行策略优化，构建高效的推荐引擎的方法。本文做为这个系列的第一篇文章，将深刻介绍推荐引擎的工做原理，和其中涉及的各类推荐机制，以及它们各自的优缺点和适用场景，帮助用户清楚的了解和快速构建适合本身的推荐引擎。算法

信息发现

现在已经进入了一个数据爆炸的时代，随着 Web 2.0 的发展， Web 已经变成数据分享的平台，那么，如何让人们在海量的数据中想要找到他们须要的信息将变得愈来愈难。网络

在这样的情形下，搜索引擎（Google，Bing，百度等等）成为你们快速找到目标信息的最好途径。在用户对本身需求相对明确的时候，用搜索引擎很方便的经过关键字搜索很快的找到本身须要的信息。但搜索引擎并不能彻底知足用户对信息发现的需求，那是由于在不少状况下，用户其实并不明确本身的须要，或者他们的需求很难用简单的关键字来表述。又或者他们须要更加符合他们我的口味和喜爱的结果，所以出现了推荐系统，与搜索引擎对应，你们也习惯称它为推荐引擎。dom

随着推荐引擎的出现，用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的信息发现。机器学习

现在，随着推荐技术的不断发展，推荐引擎已经在电子商务 (E-commerce，例如 Amazon，当当网 ) 和一些基于 social 的社会化站点 ( 包括音乐，电影和图书分享，例如豆瓣，Mtime 等 ) 都取得很大的成功。这也进一步的说明了，Web2.0 环境下，在面对海量的数据，用户须要这种更加智能的，更加了解他们需求，口味和喜爱的信息发现机制。oop

深刻推荐机制

这一章的篇幅，将详细介绍各个推荐机制的工做原理，它们的优缺点以及应用场景。

基于人口统计学的推荐

基于人口统计学的推荐机制（Demographic-based Recommendation）是一种最易于实现的推荐方法，它只是简单的根据系统用户的基本信息发现用户的相关程度，而后将类似用户喜好的其余物品推荐给当前用户，图 2 给出了这种推荐的工做原理。

图 2. 基于人口统计学的推荐机制的工做原理

从图中能够很清楚的看到，首先，系统对每一个用户都有一个用户 Profile 的建模，其中包括用户的基本信息，例如用户的年龄，性别等等；而后，系统会根据用户的 Profile 计算用户的类似度，能够看到用户 A 的 Profile 和用户 C 同样，那么系统会认为用户 A 和 C 是类似用户，在推荐引擎中，能够称他们是“邻居”；最后，基于“邻居”用户群的喜爱推荐给当前用户一些物品，图中将用户 A 喜欢的物品 A 推荐给用户 C。

这种基于人口统计学的推荐机制的好处在于：

由于不使用当前用户对物品的喜爱历史数据，因此对于新用户来说没有“冷启动（Cold Start）”的问题。
这个方法不依赖于物品自己的数据，因此这个方法在不一样物品的领域均可以使用，它是领域独立的（domain-independent）。

那么这个方法的缺点和问题是什么呢？这种基于用户的基本信息对用户进行分类的方法过于粗糙，尤为是对品味要求较高的领域，好比图书，电影和音乐等领域，没法获得很好的推荐效果。可能在一些电子商务的网站中，这个方法能够给出一些简单的推荐。另一个局限是，这个方法可能涉及到一些与信息发现问题自己无关却比较敏感的信息，好比用户的年龄等，这些用户信息不是很好获取。

基于内容的推荐

基于内容的推荐是在推荐引擎出现之初应用最为普遍的推荐机制，它的核心思想是根据推荐物品或内容的元数据，发现物品或者内容的相关性，而后基于用户以往的喜爱记录，推荐给用户类似的物品。图 3 给出了基于内容推荐的基本原理。

图 3. 基于内容推荐机制的基本原理

图 3 中给出了基于内容推荐的一个典型的例子，电影推荐系统，首先咱们须要对电影的元数据有一个建模，这里只简单的描述了一下电影的类型；而后经过电影的元数据发现电影间的类似度，由于类型都是“爱情，浪漫”电影 A 和 C 被认为是类似的电影（固然，只根据类型是不够的，要获得更好的推荐，咱们还能够考虑电影的导演，演员等等）；最后实现推荐，对于用户 A，他喜欢看电影 A，那么系统就能够给他推荐相似的电影 C。

这种基于内容的推荐机制的好处在于它能很好的建模用户的口味，能提供更加精确的推荐。但它也存在如下几个问题：

须要对物品进行分析和建模，推荐的质量依赖于对物品模型的完整和全面程度。在如今的应用中咱们能够观察到关键词和标签（Tag）被认为是描述物品元数据的一种简单有效的方法。
物品类似度的分析仅仅依赖于物品自己的特征，这里没有考虑人对物品的态度。
由于须要基于用户以往的喜爱历史作出推荐，因此对于新用户有“冷启动”的问题。

虽然这个方法有不少不足和问题，但他仍是成功的应用在一些电影，音乐，图书的社交站点，有些站点还请专业的人员对物品进行基因编码，好比潘多拉，在一份报告中说道，在潘多拉的推荐引擎中，每首歌有超过 100 个元数据特征，包括歌曲的风格，年份，演唱者等等。

基于协同过滤的推荐

随着 Web2.0 的发展，Web 站点更加提倡用户参与和用户贡献，所以基于协同过滤的推荐机制因运而生。它的原理很简单，就是根据用户对物品或者信息的偏好，发现物品或者内容自己的相关性，或者是发现用户的相关性，而后再基于这些关联性进行推荐。基于协同过滤的推荐能够分为三个子类：基于用户的推荐（User-based Recommendation），基于项目的推荐（Item-based Recommendation）和基于模型的推荐（Model-based Recommendation）。下面咱们一个一个详细的介绍着三种协同过滤的推荐机制。

基于用户的协同过滤推荐

基于用户的协同过滤推荐的基本原理是，根据全部用户对物品或者信息的偏好，发现与当前用户口味和偏好类似的“邻居”用户群，在通常的应用中是采用计算“K- 邻居”的算法；而后，基于这 K 个邻居的历史偏好信息，为当前用户进行推荐。下图 4 给出了原理图。

图 4. 基于用户的协同过滤推荐机制的基本原理

上图示意出基于用户的协同过滤推荐机制的基本原理，假设用户 A 喜欢物品 A，物品 C，用户 B 喜欢物品 B，用户 C 喜欢物品 A ，物品 C 和物品 D；从这些用户的历史喜爱信息中，咱们能够发现用户 A 和用户 C 的口味和偏好是比较相似的，同时用户 C 还喜欢物品 D，那么咱们能够推断用户 A 可能也喜欢物品 D，所以能够将物品 D 推荐给用户 A。

基于用户的协同过滤推荐机制和基于人口统计学的推荐机制都是计算用户的类似度，并基于“邻居”用户群计算推荐，但它们所不一样的是如何计算用户的类似度，基于人口统计学的机制只考虑用户自己的特征，而基于用户的协同过滤机制但是在用户的历史偏好的数据上计算用户的类似度，它的基本假设是，喜欢相似物品的用户可能有相同或者类似的口味和偏好。

基于项目的协同过滤推荐

基于项目的协同过滤推荐的基本原理也是相似的，只是说它使用全部用户对物品或者信息的偏好，发现物品和物品之间的类似度，而后根据用户的历史偏好信息，将相似的物品推荐给用户，图 5 很好的诠释了它的基本原理。

假设用户 A 喜欢物品 A 和物品 C，用户 B 喜欢物品 A，物品 B 和物品 C，用户 C 喜欢物品 A，从这些用户的历史喜爱能够分析出物品 A 和物品 C 时比较相似的，喜欢物品 A 的人都喜欢物品 C，基于这个数据能够推断用户 C 颇有可能也喜欢物品 C，因此系统会将物品 C 推荐给用户 C。

与上面讲的相似，基于项目的协同过滤推荐和基于内容的推荐其实都是基于物品类似度预测推荐，只是类似度计算的方法不同，前者是从用户历史的偏好推断，然后者是基于物品自己的属性特征信息。

图 5. 基于项目的协同过滤推荐机制的基本原理

同时协同过滤，在基于用户和基于项目两个策略中应该如何选择呢？其实基于项目的协同过滤推荐机制是 Amazon 在基于用户的机制上改良的一种策略，由于在大部分的 Web 站点中，物品的个数是远远小于用户的数量的，并且物品的个数和类似度相对比较稳定，同时基于项目的机制比基于用户的实时性更好一些。但也不是全部的场景都是这样的状况，能够设想一下在一些新闻推荐系统中，也许物品，也就是新闻的个数可能大于用户的个数，并且新闻的更新程度也有很快，因此它的形似度依然不稳定。因此，其实能够看出，推荐策略的选择其实和具体的应用场景有很大的关系。

基于模型的协同过滤推荐

基于模型的协同过滤推荐就是基于样本的用户喜爱信息，训练一个推荐模型，而后根据实时的用户喜爱的信息进行预测，计算推荐。

基于协同过滤的推荐机制是现今应用最为普遍的推荐机制，它有如下几个显著的优势：

它不须要对物品或者用户进行严格的建模，并且不要求物品的描述是机器可理解的，因此这种方法也是领域无关的。
这种方法计算出来的推荐是开放的，能够共用他人的经验，很好的支持用户发现潜在的兴趣偏好

而它也存在如下几个问题：

方法的核心是基于历史数据，因此对新物品和新用户都有“冷启动”的问题。
推荐的效果依赖于用户历史偏好数据的多少和准确性。
在大部分的实现中，用户历史偏好是用稀疏矩阵进行存储的，而稀疏矩阵上的计算有些明显的问题，包括可能少部分人的错误偏好会对推荐的准确度有很大的影响等等。
对于一些特殊品味的用户不能给予很好的推荐。
因为以历史数据为基础，抓取和建模用户的偏好后，很难修改或者根据用户的使用演变，从而致使这个方法不够灵活。

混合的推荐机制

在现行的 Web 站点上的推荐每每都不是单纯只采用了某一种推荐的机制和策略，他们每每是将多个方法混合在一块儿，从而达到更好的推荐效果。关于如何组合各个推荐机制，这里讲几种比较流行的组合方法。

加权的混合（Weighted Hybridization）: 用线性公式（linear formula）将几种不一样的推荐按照必定权重组合起来，具体权重的值须要在测试数据集上反复实验，从而达到最好的推荐效果。
切换的混合（Switching Hybridization）：前面也讲到，其实对于不一样的状况（数据量，系统运行情况，用户和物品的数目等），推荐策略可能有很大的不一样，那么切换的混合方式，就是容许在不一样的状况下，选择最为合适的推荐机制计算推荐。
分区的混合（Mixed Hybridization）：采用多种推荐机制，并将不一样的推荐结果分不一样的区显示给用户。其实，Amazon，当当网等不少电子商务网站都是采用这样的方式，用户能够获得很全面的推荐，也更容易找到他们想要的东西。
分层的混合（Meta-Level Hybridization）: 采用多种推荐机制，并将一个推荐机制的结果做为另外一个的输入，从而综合各个推荐机制的优缺点，获得更加准确的推荐。

总结

在网络数据爆炸的年代，如何让用户更快的找到想要的数据，如何让用户发现本身潜在的兴趣和需求，不管是对于电子商务仍是社会网络的应用都是相当重要的。推荐引擎的出现，使得这个问题愈来愈被你们关注。但对大多数人来说，也许还在惊叹它为何老是能猜到你到底想要些什么。推荐引擎的魔力在于你不清楚在这个推荐背后，引擎到底记录和推理了些什么。

经过这篇综述性的文章，你能够了解，其实推荐引擎只是默默的记录和观察你的一举一动，而后再借由全部用户产生的海量数据分析和发现其中的规律，进而慢慢的了解你，你的需求，你的习惯，并默默的无声息的帮助你快速的解决你的问题，找到你想要的东西。

其实，回头想一想，不少时候，推荐引擎比你更了解你本身。

经过第一篇文章，相信你们对推荐引擎有一个清晰的第一印象，本系列的下一篇文章将深刻介绍基于协同过滤的推荐策略。在现今的推荐技术和算法中，最被你们普遍承认和采用的就是基于协同过滤的推荐方法。它以其方法模型简单，数据依赖性低，数据方便采集，推荐效果较优等多个优势成为大众眼里的推荐算法“No.1”。本文将带你深刻了解协同过滤的秘密，并给出基于 Apache Mahout 的协同过滤算法的高效实现。Apache Mahout 是 ASF 的一个较新的开源项目，它源于 Lucene，构建在 Hadoop 之上，关注海量数据上的机器学习经典算法的高效实现。

探索推荐引擎内部的秘密

信息发现

推荐引擎

图 1. 推荐引擎工做原理图

推荐引擎的分类

深刻推荐机制

基于人口统计学的推荐

图 2. 基于人口统计学的推荐机制的工做原理

基于内容的推荐

图 3. 基于内容推荐机制的基本原理

基于协同过滤的推荐

图 4. 基于用户的协同过滤推荐机制的基本原理

图 5. 基于项目的协同过滤推荐机制的基本原理

混合的推荐机制

推荐引擎的应用

图 6. Amazon 的推荐机制 - 首页

图 7. Amazon 的推荐机制 - 浏览物品

图 8 . 豆瓣的推荐机制 - 豆瓣电影

图 9 . 豆瓣的推荐机制 - 基于用户品味的推荐

图 10 . 豆瓣的推荐机制 - 基于电影自己的推荐

总结