个性化推荐研究(二)之何为好的推荐系统

<h3>什么才是好的推荐系统?</h3> <p>&nbsp;&nbsp;&nbsp;&nbsp;推荐系统存在三个参与方:用户、物品提供者和网站(或者手机应用)。好的推荐系统整体来讲是一个能令三方双赢的系统。那么如何作到三方双赢呢?<br/> &nbsp;&nbsp;&nbsp;&nbsp;从用户角度,推荐系统必须知足用户的需求,给用户推荐那些令他们感兴趣的图书。推荐系统还应该可以作到准确预测用户的行为,帮助用户发现那些他们可能感兴趣但不易本发现的物品(挖掘物品的长尾)。最后推荐系统也应该可以挖掘用户潜在的兴趣,将那些与用户兴趣无关可是用户看见以后可能会感兴趣的物品推荐给用户(后文将要说明的惊喜度)。<br/> &nbsp;&nbsp;&nbsp;&nbsp;从物品提供商角度,推荐系统要让提供商的物品都可以被推荐给对其感兴趣的用户。<br/> &nbsp;&nbsp;&nbsp;&nbsp;从网站角度,推荐系统可以让自己收集到高质量的用户反馈,不断完善推荐质量,增长用户和网站的交互(用户活跃度和粘稠度?)。<br/> &nbsp;&nbsp;&nbsp;&nbsp;我的见解,以上状况很理想,可是现实老是骨干的,在实际应用中,这可能这是咱们的终极目标。实际应用中可能会根据业务需求进行变更,并采起尽量可行的方案去执行,尽快发布一个版本,而后在之后不断去完善(感受与TDD相似)。 </p> <h3>推荐系统的实验方法</h3> <p> &nbsp;&nbsp;&nbsp;&nbsp;1.离线实验<br/> &nbsp;&nbsp;&nbsp;&nbsp;离线实验通常有以下几步构成:<br/> &nbsp;&nbsp;&nbsp;&nbsp;1) 经过日志系统获取用户行为数据,并按照必定格式生成一个标准的数据集;<br/> &nbsp;&nbsp;&nbsp;&nbsp;2) 将数据集按照必定的规则分红训练集和测试集;<br/> &nbsp;&nbsp;&nbsp;&nbsp;3) 在训练集上训练用户兴趣模型,在测试集上进行预测;<br/> &nbsp;&nbsp;&nbsp;&nbsp;4) 经过事先定义好的离线之指标评测算法评测预测结果。<br/> &nbsp;&nbsp;&nbsp;&nbsp;优势:不须要用户参与;速度快,可测试大量算法。<br/> &nbsp;&nbsp;&nbsp;&nbsp;缺点:离线实验的指标与商业指标存在差距,而且没法计算商业上关心的指标(如:点击率,转化率等)。<br/> &nbsp;&nbsp;&nbsp;&nbsp;2.用户调查<br/> &nbsp;&nbsp;&nbsp;&nbsp;基于离线实验的主要缺点,推荐系统在正是上线以前须要进行一次用户调查。<br/> &nbsp;&nbsp;&nbsp;&nbsp;优势:能够得到许多体现用户主观感觉的指标,相对在线实验风险较低,出现错误容易弥补。<br/> &nbsp;&nbsp;&nbsp;&nbsp;缺点:很难组织大规模的测试用户,所以会使测试结果的统计意义不足。此外,用户在测试环境下的行为与真实环境下的行为可能有所不一样。<br/> &nbsp;&nbsp;&nbsp;&nbsp;3.在线实验<br/> &nbsp;&nbsp;&nbsp;&nbsp;推荐系统上线后进行AB测试,经过必定规则将用户随机分红几组,并对不一样组的用户采用不一样的算法,而后统计不一样组用户的各类不一样的评测指标,比较不一样的算法。<br/> &nbsp;&nbsp;&nbsp;&nbsp;优势:能够公平得到不一样算法实际时的性能指标,包括商业上的指标。<br/> &nbsp;&nbsp;&nbsp;&nbsp;缺点:周期较长,必须进行长期的实验才能得到可靠结果。所以AB测试主要测试那些在离线实验和用户调查中表现很好的算法。<br/> </p> <h3>实验方法的评测指标</h3> <p>&nbsp;&nbsp;&nbsp;&nbsp;1.用户满意度<br/> &nbsp;&nbsp;&nbsp;&nbsp;评测推荐系统的最终要指标,通常经过问卷调查的形式。<br/> &nbsp;&nbsp;&nbsp;&nbsp;2.预测准确度<br/> &nbsp;&nbsp;&nbsp;&nbsp;最重要的离线评测指标。<br/> &nbsp;&nbsp;&nbsp;&nbsp;a) 评分预测<br/> &nbsp;&nbsp;&nbsp;&nbsp;评分预测通常经过均方根偏差(RMSE)和平均绝对偏差(MAE)计算。<br/> &nbsp;&nbsp;&nbsp;&nbsp;RMSE=sqrt[square(用户u对物品i的实际评分 - 用户u对物品i的预测评分)/物品i的个数]<br/> &nbsp;&nbsp;&nbsp;&nbsp;MAE=( | 用户u对物品i的实际评分 - 用户u对物品i的预测评分 | ) / 物品的个数 。<br/> &nbsp;&nbsp;&nbsp;&nbsp;我的见解,感受就是测量精度的问题,精度越准确就说明你测量的越准确。回头能够看看高中的相关知识。<br/> &nbsp;&nbsp;&nbsp;&nbsp;b) TopN推荐<br/> &nbsp;&nbsp;&nbsp;&nbsp;TopN推荐是推荐系统给用户的一个个性化推荐列表的推荐方式。<br/> &nbsp;&nbsp;&nbsp;&nbsp;TopN推荐的预测准确率通常经过准确率(precision)/召回率(recall)度量。<br/> &nbsp;&nbsp;&nbsp;&nbsp;相关文章请见:<a href=http://en.wikipedia.org/wiki/Information_retrieval#Precision>维基百科(点击便可)</a>。<br/> &nbsp;&nbsp;&nbsp;&nbsp;3.覆盖率<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> &nbsp;&nbsp;&nbsp;&nbsp;4.多样性<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> &nbsp;&nbsp;&nbsp;&nbsp;5.新颖型<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> &nbsp;&nbsp;&nbsp;&nbsp;6.惊喜度<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> &nbsp;&nbsp;&nbsp;&nbsp;7.信任度<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> &nbsp;&nbsp;&nbsp;&nbsp;8.实时性<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> &nbsp;&nbsp;&nbsp;&nbsp;9.健壮性<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> &nbsp;&nbsp;&nbsp;&nbsp;10.商业指标<br/> &nbsp;&nbsp;&nbsp;&nbsp;暂不介绍,之后会补充。<br/> </p> <h3>评测维度</h3> <p>&nbsp;&nbsp;&nbsp;&nbsp;评测维度能够告诉你一个算法在什么状况下性能最好。这样能够经过融合不一样推荐算法取得最好的总体性能。通常有用户维度、物品维度、时间维度。 </p>算法

相关文章
相关标签/搜索