用于推荐系统评估的概念与指标

时间 2019-11-06

标签用于推荐系统评估概念指标繁體版

原文原文链接

在推荐系统中，研究人员为了能让预测结果对用户提供更多价值，会关注用户满意度。鉴于推荐系统除了让用户购买更多的类似产品外，还必须对用户而言“有用”，研究人员还会关注用户在使用系统时的交互体验和消费体验。目前，研究人员正在经过评估不一样的指标来解决这个问题，而不是简单地经过预测准确度和机器学习技术。算法

推荐系统的性能应该由它为用户产生的价值来衡量。在推荐系统的评估问题上，目前有不少指标，好比说覆盖率、新颖性、多样性、惊喜度。这些评估方法名称各不相同。微信

有些学者把推荐系统中的新颖性、相关性、惊喜度等称其为“概念（concept ）”，另外一些学者则称其为“维度（dimensions）”，还有些人称其为“推荐系统评估的方法（measures of recommender system evaluation）”。网络

在本文中，咱们将使用“概念”一词，指代评估推荐系统时的不一样方面。在对现有概念归类后，咱们将其分为了六大类：实用性、新颖性、多样性、奇异性、覆盖率、惊喜度和覆盖率。但还有一些概念未说起，如：信任、风险、鲁棒性、隐私、适应性和可扩展性。为了方便读者阅读，咱们会把这几大概念用不一样的篇幅呈现。运维

表1总结了本文在全部评估指标中使用的符号。机器学习

实用性

推荐系统的实用性有不少别称，例如相关性、有用性、推荐价值和用户满意度等。《推荐系统手册》（Recommender Systems Handbook）认为，实用性表明了用户在推荐时所得到的价值。若是用户喜欢推荐的项目，他/她收到的推荐就是有用的。实用性还被定义为用户消费偏好顺序。若是用户只消费他们最喜欢的东西，那么推荐这些项目能帮助用户更快找到心中所爱，从而达到推荐的实用性。post

能够看出，大多数定义将实用性与用户消费的愿望与用户满意度挂钩。在这样的定义中，评估推荐系统的实用性应该集中在用户对推荐系统生成的预测作何反应。咱们能够经过评估用户在消费物品后给出的评级，从而衡量推荐系统实用性。若是推荐结果为用户带来了价值，这种方法彷佛是可取的，但这涉及到了在线评估。而说到离线评估，部分学者建议使用基于准确度的指标来评估。性能

在本文中，咱们使用符号𝑢𝑡𝑖𝑙（𝑅𝑢）util（Ru）来表示推荐系统的实用性，评估实用性的指标会在下文中一一介绍。学习

1. 偏差度量（Error metrics）

偏差度量被普遍用于预测准确性。平均绝对偏差（MAE，Mean Absolute Error）可以评估推荐系统预测的评级与用户给出的评级之间的差别。测试

公式1显示的是MAE指标。ui

此外，均方根偏差（RMSE，Root Mean Squared Error）是另外一种偏差度量标准，用来计算评级预测中较大偏差之间的差别如公式2所示。

标准差是用来衡量一组数自身的离散程度，而均方根偏差是用来衡量观测值同真值之间的误差，它们的研究对象和研究目的不一样，可是计算过程相似，都是在预测列表上计算的。

此外，还有其余偏差度量标准，例如平均RMSE （Average RMSE），平均MAE（ Average MAE）和均方偏差（Mean Squared Error）。

2. 精确度（Precision）和召回（Recall）

推荐的精确度包括推荐列表中用户消费（或评级）项目的数量，如公式3所述。精确度可以测量推荐列表中用户喜欢并消费的项目的比率。

召回是根据用户消费的项目总数中，出如今推荐列表中的消费项目数计算得出的。公式4则指召回计算。

3. ROC曲线

ROC曲线的全称是Receiver Operating Characteristic Curve，中文名字叫“受试者工做特征曲线”，顾名思义，其主要的分析方法就是画这条特征曲线。

ROC曲线可以测量推荐列表中用户喜欢的项目的比率。与偏差度量、精确度和召回指标不一样，ROC曲线的计算强调推荐但用户不喜欢的项目。在不一样情景下对算法的评估可使用ROC曲线下的面积（AUC，Area under the ROC curve）。

4. 排序（Ranking score）

在评估推荐列表时引用排序指标颇有用。推荐系统一般预测排名列表，然而用户不太可能浏览全部的项目。所以，排序指标在测量实用性和排名信息时可能颇有趣。排序靠前的项目更重要。

公式5指R-Score度量，其中𝑟（𝑖，𝑗）r（i，j）是等级中项目𝑖i的等级，𝑑d是中值等级，αα表明半衰期衰减值。

除了R-Score，还有其余排名指标，如 Kendall and Spearman rank correlation 和Normalized Distance-based Performance Measure。

5. 基于实用性的在线评估指标

在在线评估中，还会同用户一块儿评估推荐系统的实用性。研究人员一般会进行用户试验，来测试其推荐系统的实用性，或在行业应用时对其进行评估。

点击率（CTR，Click-through-rate）是计算推荐商品数量中用户已点击/互动的推荐商品的比率。自网络/移动广告和在线营销兴起以来，点击率就开始进入人们的视野。点击率也是在推荐系统中的主要的度量标准，有助于研究用户推荐项目的有效消费数量。

点击率被用做推荐系统实用性评估指标的前提是，用户若是点击/交互/消费推荐项目，那么该推荐对用户而言有用。从商业角度来看，它显示了推荐系统在预测方面的有效性。度量标准能够在公式6中看到。

存留（Retention）也是用于在线评估推荐系统的指标。存留可以衡量推荐系统在保持用户消费行为或使用系统等方面的影响。存留一直是评估的焦点，已被应用于许多场景中。

值得一提的是，前面提到的推荐系统实用性评估指标一样适用于在线评估。例如，基于准确度的指标（例如偏差度量、精确度、召回）也适用于在线评估。

相关阅读：

推荐系统的工做流程

白话推荐系统

想要了解推荐系统？看这里！（2）——神经网络方法

想要了解推荐系统？看这里！（1）——协同过滤与奇异值分解

AutoML如何实现智能推荐系统的自动上线和运维？

入门推荐系统，你不该该错过的知识清单

如欲了解更多，欢迎搜索并关注先荐微信公众号（ID：dsfsxj）。

本帐号为第四范式智能推荐产品先荐的官方帐号。帐号立足于计算机领域，特别是人工智能相关的前沿研究，旨在把更多与人工智能相关的知识分享给公众，从专业的角度促进公众对人工智能的理解；同时也但愿为人工智能相关人员提供一个讨论、交流、学习的开放平台，从而早日让每一个人都享受到人工智能创造的价值。