导读算法
AAAI 2018大会将至,蚂蚁金服在本次大会上也有多篇论文被录取。上周,咱们和你们介绍了《AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法》这篇论文(点进连接便可阅读),这是蚂蚁金服人工智能部与新加坡科技大学一项最新的合做成果:cw2vec——基于汉字笔画信息的中文词向量算法研究,受到了你们的欢迎。浏览器
本篇文章咱们分享的是蚂蚁在AAAI 2018大会上的另一篇论文,Privacy Preserving Point-of-interestRecommendation Using Decentralized Matrix Factorization,本文探讨了用去中心化的方式来在作用户兴趣推荐的同时保护好用户隐私,还能同时解决原有中心化的计算方式带来的资源浪费问题。一块儿来看看吧!若是你有什么问题和想法,请欢迎在文末的评论区与蚂蚁金服的技术同窗进行互动!微信
Privacy Preserving Point-of-interest Recommendation Using Decentralized Matrix Factorization网络
ChaochaoChen, Ziqi Liu, Peilin Zhao, Jun Zhou, Xiaolong Lidom
(陈超超,刘子奇,赵沛霖,周俊,李小龙)编辑器
【注】:论文下载连接https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFpbnxjY2Nob21lcGFnZXxneDoxMGM0OGFkMGM4ZTA2MzY(请将网址复制至浏览器中打开或直接点击阅读原文便可查看。)分布式
随着基于地理位置的社交网络(如共享单车)的发展,兴趣点的推荐(Point-of-interest,如推荐酒店,餐厅,加油站,如下简称POI)也变的愈来愈流行。矩阵分解(潜在因子模型)是兴趣点推荐中很是重要的一类方法。在训练阶段,它经过用户对物品已有的交互信息(如点击,评分,评论,上下文等)学习用户和物品的潜在向量;在预测阶段,经过用户和物品的潜在向量的类似度匹配来作推荐。 学习
▲图1 集中式训练与去中心化式训练的对比优化
现有的兴趣点推荐系统,都属于集中式(centralized)训练的方法,如图1左所示。也就是说,传统的矩阵分解技术,首先构建该推荐系统的人(或平台),要获取用户对物品行为(如购买,点击,评分等行为)数据,而后利用这些数据来构建一个矩阵分解推荐系统。这样作有两个弊端:google
(1)耗费存储计算资源。一方面,全部用户对物品的行为历史数据,都要集中式的存储在某个服务端,所以浪费存储资源。另外一方面,在训练矩阵分解模型时,须要在服务端机器上训练,模型的训练速度受限于服务端机器数量,所以浪费了计算资源。
(2)不能保护用户隐私数据。由于用户对物品的行为历史,都被该服务端获取了,假设该服务端不会主动泄露用户隐私,那也存在会被黑客攻击,从而致使用户隐私泄露的事情发生。
为解决这两个问题,咱们提出了一种用户隐私保护的去中心化式的矩阵分解方法,如图1右所示。简单而言,用户的数据存在在本身的我的设备上,如手机和pad,不向服务端上传,这样解决了集中式训练形成的存储资源浪费。另外一方面,模型的训练,也都在用户端完成,用户之间经过交互非原始数据信息来完成模型的协同训练。这样的去中心化式的训练方法可视为分布式算法,每一个用户都是一个计算节点,由于能够解决集中式训练形成的计算资源浪费。
模型介绍
▲图2 Foursquare及Alipay数据分析
1. 问题定义
对于去中心化的推荐而言,每一个用户对POI的行为数据(如check-in),都保存在用户本身的设备上,如手机和pad,不向服务端上传。咱们提出的去中心化的推荐,能够应用于多种已知的潜在向量模型中,如矩阵分解[1]和pair-wise的排序方法[2]中。以去中心化的矩阵分解方法为例,每一个用户本身须要保存的信息有:
a. 其本身对每一个POI的原始交互信息
b. 其自身的用户潜在向量
c. 每一个POI的共享(common, global)潜在向量
d. 该用户本身对POI的个性化(personal, local)向量
去中心化的推荐与传统集中式训练的推荐方法的核心思想类似,即用户之间协同完成模型的训练。那么,很天然的能够想到,去中心化式的推荐方法面临如下两个挑战:
C1: 每一个用户应当与哪些用户作信息交互,以学习模型;
C2: 用户之间应当交互哪些信息,以达到不泄露我的数据但能协同训练模型的目的。
▲图3 基于Random Walk的用户信息交互
1. C1的解决方案
为回答第一个问题,咱们首先对真实POI数据作了分析,如图2所示。从图2咱们能够发现,在POI场景中,绝大多数用户具备地理位置的汇集性。所以,用户能够经过与地理位置相近的其余用户交换信息来学习模型。咱们首先使用用户地理位置信息构建用户邻接图,而后提出使用Random Walk在用户邻接图上作信息交互,如图3所示。其中,表示用户,
表示POI,当用户
对POI
产生了一个动做时(如check-in),用户会将其学到的关于
的信息传递给其一阶或多阶邻居。至因而何种信息,下文会有介绍。同时,咱们能够经过指定Random Walk的最大跳数来限制用户之间信息交互频率,以减少通讯和计算开销。
2. C2的解决方案
已有研究[1]已经证实,去中心化式的训练过程当中,单独的学习者之间经过交换梯度能够实现模型的收敛。在去中心化式的矩阵分解场景下,咱们提出用户之间经过交换POI的共享潜在向量梯度来完成用户之间的协同训练。即,当一个用户对某POI有行为时,该用户的潜在向量以及该POI的共享及个性化潜在向量都会经过梯度进行更新,与此同时,该用户将该POI共享潜在向量的梯度发送给其邻居,这些邻居拿到该POI共享潜在向量的梯度以后,得知与其相关的用户已经对该POI进行了必定的反馈。所以,存在这些邻居处的该POI共享潜在向量也会获得相应更新,以此来完成模型的协同训练。
实验结果及分析
咱们的实验在两个数据集上完成,一个是学术界公开数据集(Foursquare),另外一个则是支付宝内真实的数据集(Alipay),两个数据集信息如表1所示。
在真实的推荐场景下,推荐物品top准确性相当重要,所以,咱们选择top的准确率(P@k)和召回率(R@k)做为评价指标。同时,咱们选择了传统集中式的矩阵分解方法(MF)和集中式的pairwise优化方法(BPR)做为对比方法外。此外,咱们还对比了咱们在模型(DMF)在用户设备上只保留POI共享(common, global)潜在向量(GDMF),及只保留POI的个性化(personal, local)向量(LDMF)时,咱们模型的效果。对比结果见表2和表3。
从对比结果中咱们能够看出,咱们所提出的去中心化的矩阵分解方法,效果不只能够优于集中式的矩阵分解方法,并且能够优于大多数状况下pairwise的优化方法;同时也能够看出去掉用户之间的协同做用以后(LDMF),模型效果获得大幅度降低,这也代表了用户协同训练的重要性。此外,图4显示了咱们模型在两个数据集上train和test上的loss,能够看出,模型随着迭代次数的增长,在train和test上都能很好的收敛。
▲图4 模型train和test loss随着迭代次数的变化
总结
随着我的,企业及政府对用户隐私保护重视程度的提升,不少数据都由用户或单位本身保管。所以,如何在保证他们各自都保留本身数据的前提下,协同训练并共同得到推荐成果成为一个发展趋势。除传统的数据加密方法外,该论文所提出的去中心化式的推荐方法成为了基于用户数据隐私保护的另外一类推荐方法。
如今的方法中,全部的潜在向量都是以实数向量的形式进行存储,在数据量极大时,用户设备的存储及计算资源将会限制模型的扩展性。所以,咱们会把模型的压缩做为将来工做。
参考文献
[1] Mnih, Andriy, and Ruslan R. Salakhutdinov. "Probabilistic matrix factorization." In Advances in neural information processing systems, pp. 1257-1264. 2008.
[2] Rendle, Steffen, Christoph Freudenthaler, Zeno Gantner, and Lars Schmidt-Thieme. "BPR: Bayesian personalized ranking from implicit feedback." In Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence, pp. 452-461. AUAI Press, 2009.
[3] Yan, Feng, Shreyas Sundaram, S. V. N. Vishwanathan, and Yuan Qi. "Distributed autonomous online learning: Regrets and intrinsic privacy-preserving properties." IEEE Transactions on Knowledge and Data Engineering 25, no. 11 (2013): 2483-2493.
— END —
本文分享自微信公众号 - 支付宝技术(Ant-Techfin)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。