[论文学习]Convolutional matrix factorization for document context-aware recommendation

时间 2020-12-30

原文原文链接

Kim D, Park C, Oh J, et al. Convolutional matrix factorization for document context-aware recommendation[C]//Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016: 233-240.

ABSTRACT

用户到项目评分数据的稀疏性是推荐系统质量恶化的主要因素之一。为了处理稀疏性问题，一些推荐技术考虑辅助信息来提高评分预测精度。特别地，当评分数据稀疏时，基于文档建模的方法通过利用文本数据（例如评论，摘要或概要）来提高准确性。然而，由于词袋模型的固有限制，它们在有效利用文档的上下文信息方面存在困难，只能对文档浅层理解。本文提出了一种新颖的上下文感知推荐模型，将卷积神经网络（CNN）集成到概率矩阵分解（PMF）中的卷积矩阵分解（ConvMF）。ConvMF捕获文档的上下文信息，并进一步提高评分预测精度。我们在三个真实世界的数据集的测试显示，ConvMF显著优于现有先进的推荐模型，即使评分数据极为稀少。我们还展示了ConvMF成功地捕获了文档中单词的微妙上下文差异。我们的实实验和数据集可在http://dm.postech.ac.kr/ConvMF获得。

1. INTRODUCTION

电子商务服务中的用户和项目数量的爆炸式增长增加了用户对项目评分数据的稀疏性。最终，这种稀疏性降低了传统协同过滤技术的评分预测精度。为了提高准确性，一些推荐技术提出了不仅要考虑评分信息，还考虑用户的人口统计信息、社会网络和项目描述文件等的辅助信息。

最近，研究者们已经提出了基于文档建模方法（如LDA主题模型和堆栈去噪自动编码器（SDAE））的方法来利用项目描述文档如评论，摘要或概要。具体来说，Wang等人提出的协作主题回归（CTR），其结合了主题建模（LDA）和协同过滤的概率方法。提出了不同的CTR，将LDA整合到协同过滤中，以不同的集成方法分析项目描述文档。最近，Wang等人提出将SDAE整合到概率矩阵分解（PMF）中的协同深度学习（CDL），从而在评分预测精度方面产生更准确的潜在模型。

然而，现有的集成模型并不能完全捕获文档信息，因为它们使用的词袋模型忽略诸如周围单词和单词顺序的文档的上下文信息。例如，假设在文件中给出了以下两个句子：“人们相信这个人”，“人们最终背叛了他的信任”，由于LDA和SDAE认为该文件是一个不可忽略的单词的集合，所以他们无法区分每一个事件的“信任”。确切地说，虽然每个“信任”的发生似乎都具有几乎相同的含义，但是这些词之间存在微妙的句法差异 - 一个动词和一个名词。文档中的这种微妙的差异对于更深入地理解文档也是一个非常重要的因素，并且进一步的这种理解有助于提高评分预测精度。

为了解决上述问题，我们采用卷积神经网络（CNN），它是最先进的机器学习方法，在诸如计算机视觉，自然语言处理（NLP）和信息检索等各个领域表现出了高性能。 CNN通过建模组件有效地捕获图像或文档的局部特征，这些模型组件包括局部感知野，共享权重和下采样。因此，CNN的使用有助于更深入地了解文档信息，并且产生比LDA和SDAE更好的潜在模型，特别是对于由于缺乏评分而诉诸于其描述文档的项目。此外，CNN能够利用诸如Glove等预先训练的词嵌入模型来更深入地了解项目描述文档。请注意，LDA和SDAE不能利用预先训练的词嵌入模型，因为它们采用了词袋模型。

然而，现有的CNN不适合推荐任务，因为卷机网络的目标与推荐目标不同。具体来说，常规CNN主要解决分类任务，即预测单词，短语或文档的标签。相反，推荐的目标被认为是一个回归任务，旨在准确地近似用户对项目的评分。因此，现有的CNN不能直接适用于我们的推荐任务。

为了解决这个技术问题，我们提出了一种文档上下文环境设置推荐模型，卷积矩阵因式分解（ConvMF），通过利用卷积神经网络（CNN）捕获项目描述文档的上下文信息，进一步提高了评分预测精度。ConvMF正是将CNN无缝集成到PMF中，而PMF通常用于推荐任务。因此，综合模式遵循推荐目标，最终有效地利用协作信息和上下文信息。因此，即使评分数据非常稀疏，ConvMF也能准确地预测未知的评分。

为了证明ConvMF的有效性，我们对三种不同的现实世界数据集进行ConvMF的评估。我们对评分数据集的各种稀疏性的实验广泛证明，ConvMF显着优于现有的先进的模型。 ConvMF的优越性验证了即使评分数据非常稀疏，ConvMF能够生成有效反映项目描述文档的上下文信息的项目潜在模型。我们还定性证明ConvMF确实在文档中捕捉到一个单词的微妙的语境差异。此外，我们研究预先训练的词嵌入模型是否有助于提高ConvMF的评分预测精度。除了实验代码和数据集。详细的实验结果也可在http://dm.postech.ac.kr/ConvMF获得。

我们的贡献总结如下。

我们解决了基于词袋模型方法的局限性，并开发了一种新颖的文档上下文感知推荐模型（ConvMF）。
为了利用评分和项目描述文档，我们以概率的角度将CNN无缝集成到PMF中。
我们广泛地展示了ConvMF在三个现实世界数据集上与现有的先进模型在定量和定性上结果的优势。

本文的其余部分组织如下。第2节简要回顾了最具代表性的协同过滤技术和CNN模型。第3节介绍了对ConvMF的概述，介绍了ConvMF的CNN架构，并介绍了如何优化ConvMF。第4节通过实验评估ConvMF并讨论评估结果。第5节总结了我们的贡献，并提供未来的工作。

2. PRELIMINARY

在本节中，我们简要回顾了矩阵分解（MF）（最流行的协同过滤技术）和卷积神经网络（CNN）。

2.1 Matrix Factorization

传统的协同过滤技术被分为两类[5]：基于内存的方法（例如最近邻域）和基于模型的方法（例如潜在因子模型）。一般来说，基于模型的方法已知可以产生更准确的推荐结果。因此，在本节中，我们描述了MF，这是最流行的基于模型的方法。

MF的目标是在共享隐空间中寻找用户和项目的潜在模型，共享隐空间中用户项目关系的强度（即用户对项目的评分）由内部产品计算。假设我们有N个用户，M个项目和一个用户项目评级矩阵 R∈RN∗M 。在MF中，用户 i 和项目 j 的潜在模型被表示为k维模型 ui∈Rk 和 vj∈Rk 。用户 i 对项目 j 的评分 rij 由用户i和项目 j 的对应潜在模型的内积（即 rij=uTivj ）近似。训练隐模型的一般方法是将损失函数L最小化，该损失函数L包括实际评分与预测评分之间的平方和，并且加上试图避免过拟合问题的L2正则化项如下：

L=∑Ni∑MjIij(rij−uTivj)2+λu∑Ni∥ui∥2+λv∑Mj∥vj∥2

其中 Iij 是指示函数当用户i 给项目j 打分时为1，其他为0。

2.2 Convolutional Neural Network

卷积神经网络（CNN）是具有以下组件的前馈神经网络的变体：1）用于产生局部特征的卷积层，2）通过仅选择几个典型的局部特征（即，通过激活功能具有最高分数的特征）来表示数据作为更简洁表示的池化（或子采样）层，局部特征来自上一层，其通常是卷积层。

虽然CNN最初是为计算机视觉开发的，但是CNN的关键思想已经积极应用于信息检索和NLP，如搜索查询检索，句子建模和分类和其他传统的NLP任务。虽然针对NLP任务需要对CNN架构进行大量修改，但最终都有助于提高各种NLP任务的性能。

然而，CNN尚未被积极应用于推荐系统领域。据我们所知，van den Oord等人首先将CNN应用于音乐推荐，通过声学分析观点利用CNN分析了歌曲，并提出了一种基于声学CNN获得的项目潜在模型来预测评分的模型。然而，他们的CNN模型，专为声信号处理而设计，不适合处理文档。文档和声学信号对周围特征的质量有固有的差异。一定时间的信号固有地类似于其周围的信号，即具有轻微时间差的信号，而文档中某个位置处的一个字与周围的字有很大的语义差异。周围特征之间的这种相似度的差异影响局部特征的质量，最终需要不同的CNN架构。此外，该模型还没有充分反映协同信息。具体来说，项目潜在模型主要由通过CNN进行音频信号分析的结果而不是协同信息决定。因此，总体推荐的性能甚至没有达到加权矩阵分解（WMF），WMF这是处理隐式反馈数据集的常规基于MF的协同过滤技术之一。

3. CONVOLUTIONAL MATRIX FACTORIZATION

在本节中，我们通过三个步骤解释了提出的模型—卷积矩阵因式分解（ConvMF）的细节：1）介绍ConvMF的概率模型，并描述桥接PMF和CNN的关键思想，以便利用评分和项目说明文档。2）我们解释CNN的详细架构，通过分析项目描述文档生成文档潜在模型。3）最后，我们描述如何优化ConvMF的潜在变量。

3.1 Probabilistic Model of ConvMF

图1显示了ConvMF的概率模型的概述，它将CNN集成到PMF中。假设我们有N个用户和M个项目，并且观察到的评分由 R∈RM∗N 的矩阵表示。然后，我们的目标是找到其乘积（ UTV ）重建评级矩阵R的用户和项目潜在模型（ U∈Rk∗N 和 V∈Rk∗M ）。从概率观点上看，观察到的评分条件分布是由下式给出的：

p(R|U,V,σ2)=∏Ni∏MjN(rij|uTivj,σ2)Iij

其中 N（x|μ,σ2）是具有平均值 μ 和方差 σ2 的高斯正态分布的概率密度函数， Iij 是2.1节中提到的指标函数。

作为用户潜在模型的生成模型，我们将传统的先验，方差为 σ2U 的零均值球面高斯置于用户潜在模型上。

p(U|σ2U)=∏NiN(ui|0,σ2UI)

然而，与常规PMF中项目潜在模型的概率模型不同，我们假设项目潜在模型由三个变量生成：1）CNN中的内部权重W，2）表示项目 j 的文档的 Xj，以及3）ε变量作为高斯噪声，使我们能够进一步优化评级的项目潜在模型。因此，最终项目潜在模型通过以下等式获得。

vj=cnn(W,Xj)+ϵj

ϵj∼N(0,σ2VI)

对于W中的每个权重 wkXj)+ϵj

ϵj∼N(0,σ2VI)

对于W中的每个权重 wk ，我们使用先前最常用的零均值球面高斯先验：

p(W|σ2W)=∏j

ϵj∼N(0,σ2VI)

对于W中的每个权重 wk ，我们使用先前最常用的零均值球面高斯先验：

p(W|σ2W)=∏kN2W)=