推荐系统中的隐语义模型

时间 2019-11-26

标签推荐系统隐语模型繁體版

原文原文链接

使用LFM（Latent factor model）隐语义模型进行Top-N推荐node

最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此作一个总结。

隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近些年它们也被不断应用到其余领域中，并获得了不错的应用效果。好比，在推荐系统中它可以基于用户的行为对item进行自动聚类，也就是把item划分到不一样类别/主题，这些主题/类别能够理解为用户的兴趣。

对于一个用户来讲，他们可能有不一样的兴趣。就以做者举的豆瓣书单的例子来讲，用户A会关注数学，历史，计算机方面的书，用户B喜欢机器学习，编程语言，离散数学方面的书，用户C喜欢大师Knuth, Jiawei Han等人的著做。那咱们在推荐的时候，确定是向用户推荐他感兴趣的类别下的图书。那么前提是咱们要对全部item（图书）进行分类。那如何分呢？你们注意到没有，分类标准这个东西是因人而异的，每一个用户的想法都不同。拿B用户来讲，他喜欢的三个类别其实均可以算做是计算机方面的书籍，也就是说B的分类粒度要比A小；拿离散数学来说，他既能够算做数学，也可当作计算机方面的类别，也就是说有些item不能简单的将其划归到肯定的单一类别；拿C用户来讲，他倾向的是书的做者，只看某几个特定做者的书，那么跟A，B相比它的分类角度就彻底不一样了。

显然咱们不能靠由单我的（编辑）或team的主观想法创建起来的分类标准对整个平台用户喜爱进行标准化。

此外咱们还须要注意的两个问题：python

咱们在可见的用户书单中归结出3个类别，不等于该用户就只喜欢这3类，对其余类别的书就一点兴趣也没有。也就是说，咱们须要了解用户对于全部类别的兴趣度。
对于一个给定的类来讲，咱们须要肯定这个类中每本书属于该类别的权重。权重有助于咱们肯定该推荐哪些书给用户。

下面咱们就来看看LFM是如何解决上面的问题的？对于一个给定的用户行为数据集（数据集包含的是全部的user, 全部的item，以及每一个user有过行为的item列表），使用LFM对其建模后，咱们能够获得以下图所示的模型：（假设数据集中有3个user, 4个item, LFM建模的分类数为4）算法

R矩阵是user-item矩阵，矩阵值Rij表示的是user i 对item j的兴趣度，这正是咱们要求的值。对于一个user来讲，当计算出他对全部item的兴趣度后，就能够进行排序并做出推荐。LFM算法从数据集中抽取出若干主题，做为user和item之间链接的桥梁，将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵，矩阵值Pij表示的是user i对class j的兴趣度；Q矩阵式class-item矩阵，矩阵值Qij表示的是item j在class i中的权重，权重越高越能做为该类的表明。因此LFM根据以下公式来计算用户U对物品I的兴趣度编程

咱们发现使用LFM后，机器学习

咱们不须要关心分类的角度，结果都是基于用户行为统计自动聚类的，全凭数据本身说了算。
不须要关心分类粒度的问题，经过设置LFM的最终分类数就可控制粒度，分类数越大，粒度约细。
对于一个item，并非明确的划分到某一类，而是计算其属于每一类的几率，是一种标准的软分类。
对于一个user，咱们能够获得他对于每一类的兴趣度，而不是只关心可见列表中的那几个类。
对于每个class，咱们能够获得类中每一个item的权重，越能表明这个类的item，权重越高。

那么，接下去的问题就是如何计算矩阵P和矩阵Q中参数值。通常作法就是最优化损失函数来求参数。在定义损失函数以前，咱们须要准备一下数据集并对兴趣度的取值作一说明。编程语言

数据集应该包含全部的user和他们有过行为的（也就是喜欢）的item。全部的这些item构成了一个item全集。对于每一个user来讲，咱们把他有过行为的item称为正样本，规定兴趣度RUI=1，此外咱们还须要从item全集中随机抽样，选取与正样本数量至关的样本做为负样本，规定兴趣度为RUI=0。所以，兴趣的取值范围为[0,1]。

采样以后原有的数据集获得扩充，获得一个新的user-item集K={(U,I)}，其中若是(U,I)是正样本，则RUI=1，不然RUI=0。损失函数以下所示：函数

上式中的是用来防止过拟合的正则化项，λ须要根据具体应用场景反复实验获得。损失函数的优化使用随机梯度降低算法：学习

经过求参数PUK和QKI的偏导肯定最快的降低方向；

迭代计算不断优化参数（迭代次数事先人为设置），直到参数收敛。

其中，α是学习速率，α越大，迭代降低的越快。α和λ同样，也须要根据实际的应用场景反复实验获得。本书中，做者在MovieLens数据集上进行实验，他取分类数F=100，α=0.02，λ=0.01。
【注意】：书中在上面四个式子中都缺乏了

综上所述，执行LFM须要：优化

根据数据集初始化P和Q矩阵（这是我暂时没有弄懂的地方，这个初始化过程究竟是怎么样进行的，还恳请各位童鞋予以赐教。）
肯定4个参数：分类数F，迭代次数N，学习速率α，正则化参数λ。

LFM的伪代码能够表示以下：ui

[python] view plain copy

def LFM(user_items, F, N, alpha, lambda):
#初始化P,Q矩阵
[P, Q] = InitModel(user_items, F)
#开始迭代
For step in range(0, N):
#从数据集中依次取出user以及该user喜欢的iterms集
for user, items in user_item.iterms():
#随机抽样，为user抽取与items数量至关的负样本，并将正负样本合并，用于优化计算
samples = RandSelectNegativeSamples(items)
#依次获取item和user对该item的兴趣度
for item, rui in samples.items():
#根据当前参数计算偏差
eui = eui - Predict(user, item)
#优化参数
for f in range(0, F):
P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f])
Q[f][item] += alpha * (eui * P[user][f] - lambda * Q[f][item])
#每次迭代完后，都要下降学习速率。一开始的时候因为离最优值相差甚远，所以快速降低；
#当优化到必定程度后，就须要放慢学习速率，慢慢的接近最优值。
alpha *= 0.9

本人对书中的伪代码追加了注释，有不对的地方还请指正。

当估算出P和Q矩阵后，咱们就可使用(*)式计算用户U对各个item的兴趣度值，并将兴趣度值最高的N个iterm（即TOP N）推荐给用户。

总结来讲，LFM具备成熟的理论基础，它是一个纯种的学习算法，经过最优化理论来优化指定的参数，创建最优的模型。

本文来源于此博客