推荐系统的评测

推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢

什么才是好的推荐系统?
在这里插入图片描述
首先,推荐系统需要满足用户的需求,给用户推荐那些令他们感兴趣的东西
好的推荐系统本身能够收集到高质量的用户反馈,不断完善推荐的质量,增加用户和网站的交互
好的推荐系统不仅仅能够准确预测用户的行为,而且能够扩展用户的视野,帮助用户发现那些他们可能感兴趣,但却不那么容易发现的东西

推荐系统的实验方法

在推荐系统中,主要有3种评测推荐效果的实验方法,即离线实验、用户调查和在线实验

离线实验

离线实验的方法一般由如下几个步骤构成:

(1) 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;
(2) 将数据集按照一定的规则分成训练集和测试集;
(3) 在训练集上训练用户兴趣模型,在测试集上进行预测;
(4) 通过事先定义的离线指标评测算法在测试集上的预测结果

在这里插入图片描述

用户调查

用户调查需要有一些真实的用户,让他们在需要测试的推荐系统上完成一些任务,在他们完成任务时,我们需要观察和记录他们的行为,并让他们回答一些问题。最后,我们需要通过分析他们的行为和答案了解测试系统的性能

优点:

可以获得很多体现用户主观感受的指标,相对风险较低

缺点:
用户调查成本高,需要用户花大量时间完成一个个任务,并回答相关的问题

在线实验

AB测试是一种很常用的在线测评算法,它通过一定的规则将用户随机分成几组,并对不同组的用户采用不同的算法,然后通过统计不同组用户的各种不同的评测指标来比较不同的算法

优点:

可以公平获得不同算法实际在线时的性能指标

缺点:

周期较长,必须进行长期的实验才能得到可靠的结果

在这里插入图片描述

评测指标

常见的评测指标如下:

  • 用户满意度
  • 预测准确度
  • 覆盖率
  • 多样性
  • 新颖性
  • 惊喜度
  • 信任度
  • 实时性
  • 健壮性
  • 商业目标
    在这里插入图片描述

评测维度

一般来说,评测维度分为如下3种

  • 用户维度:主要包括用户的人口统计学信息、活跃度以及是不是新用户等
  • 物品维度:包括物品的属性信息、流行度、平均分以及是不是新加入的物品等
  • 时间维度:包括季节,是工作日还是周末,是白天还是晚上等

如果能够在推荐系统评测报告中包含不同维度下的系统评测指标,就能帮助我们全面地了解推荐系统性能


在这里插入图片描述