使用LFM(Latent factor model)隐语义模型进行Top-N推荐node
最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此作一个总结。
隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其余领域中,并获得了不错的应用效果。好比,在推荐系统中它可以基于用户的行为对item进行自动聚类,也就是把item划分到不一样类别/主题,这些主题/类别能够理解为用户的兴趣。
对于一个用户来讲,他们可能有不一样的兴趣。就以做者举的豆瓣书单的例子来讲,用户A会关注数学,历史,计算机方面的书,用户B喜欢机器学习,编程语言,离散数学方面的书, 用户C喜欢大师Knuth, Jiawei Han等人的著做。那咱们在推荐的时候,确定是向用户推荐他感兴趣的类别下的图书。那么前提是咱们要对全部item(图书)进行分类。那如何分呢?你们注意到没有,分类标准这个东西是因人而异的,每一个用户的想法都不同。拿B用户来讲,他喜欢的三个类别其实均可以算做是计算机方面的书籍,也就是说B的分类粒度要比A小;拿离散数学来说,他既能够算做数学,也可当作计算机方面的类别,也就是说有些item不能简单的将其划归到肯定的单一类别;拿C用户来讲,他倾向的是书的做者,只看某几个特定做者的书,那么跟A,B相比它的分类角度就彻底不一样了。
显然咱们不能靠由单我的(编辑)或team的主观想法创建起来的分类标准对整个平台用户喜爱进行标准化。
此外咱们还须要注意的两个问题:python
下面咱们就来看看LFM是如何解决上面的问题的?对于一个给定的用户行为数据集(数据集包含的是全部的user, 全部的item,以及每一个user有过行为的item列表),使用LFM对其建模后,咱们能够获得以下图所示的模型:(假设数据集中有3个user, 4个item, LFM建模的分类数为4)算法
R矩阵是user-item矩阵,矩阵值Rij表示的是user i 对item j的兴趣度,这正是咱们要求的值。对于一个user来讲,当计算出他对全部item的兴趣度后,就能够进行排序并做出推荐。LFM算法从数据集中抽取出若干主题,做为user和item之间链接的桥梁,将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵,矩阵值Pij表示的是user i对class j的兴趣度;Q矩阵式class-item矩阵,矩阵值Qij表示的是item j在class i中的权重,权重越高越能做为该类的表明。因此LFM根据以下公式来计算用户U对物品I的兴趣度编程
咱们发现使用LFM后, 机器学习
那么,接下去的问题就是如何计算矩阵P和矩阵Q中参数值。通常作法就是最优化损失函数来求参数。在定义损失函数以前,咱们须要准备一下数据集并对兴趣度的取值作一说明。编程语言
数据集应该包含全部的user和他们有过行为的(也就是喜欢)的item。全部的这些item构成了一个item全集。对于每一个user来讲,咱们把他有过行为的item称为正样本,规定兴趣度RUI=1,此外咱们还须要从item全集中随机抽样,选取与正样本数量至关的样本做为负样本,规定兴趣度为RUI=0。所以,兴趣的取值范围为[0,1]。
采样以后原有的数据集获得扩充,获得一个新的user-item集K={(U,I)},其中若是(U,I)是正样本,则RUI=1,不然RUI=0。损失函数以下所示:函数
上式中的是用来防止过拟合的正则化项,λ须要根据具体应用场景反复实验获得。损失函数的优化使用随机梯度降低算法:学习
其中,α是学习速率,α越大,迭代降低的越快。α和λ同样,也须要根据实际的应用场景反复实验获得。本书中,做者在MovieLens数据集上进行实验,他取分类数F=100,α=0.02,λ=0.01。
【注意】:书中在上面四个式子中都缺乏了
综上所述,执行LFM须要:优化
LFM的伪代码能够表示以下:ui
本人对书中的伪代码追加了注释,有不对的地方还请指正。
当估算出P和Q矩阵后,咱们就可使用(*)式计算用户U对各个item的兴趣度值,并将兴趣度值最高的N个iterm(即TOP N)推荐给用户。
总结来讲,LFM具备成熟的理论基础,它是一个纯种的学习算法,经过最优化理论来优化指定的参数,创建最优的模型。