【编者按】微软亚洲研究院社会计算组的研究员们从深度学习、知识图谱、强化学习、用户画像、可解释性推荐等五个方面,展望了将来推荐系统发展的方向。微信
在前三篇文章中,咱们分别介绍了深度学习、知识图谱、强化学习在推荐系统中的应用以及将来可能的研究方向。在今天的文章中,咱们将介绍推荐系统中的用户画像。网络
构建推荐系统的核心任务之一在于如何准确地分析出用户的兴趣特色,也就是咱们常说的用户画像。机器学习
简单说来,用户画像是指从用户产生的各类数据中挖掘和抽取用户在不一样属性上的标签,如年龄、性别、职业、收入、兴趣等。完备且准确的属性标签将有力地揭示用户本质特征,于是极大地促进精准的个性化推荐。post
目前,主流用户画像方法通常是基于机器学习尤为是有监督学习的技术。这类方法从用户数据中抽取特征来做为用户的表示向量,并利用有用户属性标签的数据做为有标注数据来训练用户画像预测模型,从而对更多的没有标签的用户的属性进行预测。学习
尽管目前的用户画像方法已经取得了不错的效果并被普遍应用于实际推荐系统中,这些方法仍然存在必定的问题和挑战:网站
首先,这些已有的方法大多数都基于手工抽取的离散特征,这些特征没法刻画用户数据的上下文信息,所以对于用户的表征能力较为有限。搜索引擎
其次,现有的用户画像方法一般基于简单的线性回归或分类模型,没法从用户数据中自动学习高层次抽象特征,也没法对特征之间的交互关系进行建模。另外,已有的用户画像方法每每基于单一类型和单一来源的数据,这些数据对于用户的表征不够丰富。而实际上,用户数据每每是多来源和多类型的。人工智能
最后,已有的用户画像方法大都没有考虑用户属性标签的时效性,所以很难刻画用户动态变化的属性如兴趣等。设计
为了应对上述挑战,咱们认为应该从如下方面展开用户画像研究:日志
1. 构建具备更强表征能力的用户表示模型。
随着深度学习技术的发展和成熟,利用深层神经网络从用户原始数据中自动抽取深层次的、有信息量的特征来构建用户的特征表示可以有助于更加充分地利用用户数据并有效提高用户画像的精度。
使用基于深层神经网络的用户表示模型可以有效克服目前已有的基于特征工程和线性模型的用户画像方法的不足。咱们提出的HURA模型(
2. 基于多源和异构数据的用户画像。用户产生的数据每每分布在不一样的平台,而且具备不一样的结构(如无结构的社交媒体文本数据和有结构的电商网站购买记录等)和不一样的模态(如文本数据和图像数据),给用户画像带来了很大的挑战。
如何设计一个深度信息融合模型来利用不一样来源、不一样结构和不一样模态的用户数据进行用户建模,是将来用户画像领域的一个重要方向。
基于深度神经网络的协同窗习和多通道模型多是值得尝试的技术。
3. 不一样平台用户画像数据的共享和用户隐私保护。目前不少用户数据存在于不一样的平台当中,例如搜索引擎拥有用户的搜索和网页浏览记录,电商网站拥有用户的商品浏览、购物、收藏和购买信息。这些不一样平台的用户数据对于用户画像都具备重要的价值,互相之间能够提供互补信息,有助于构建更加丰富全面的用户表示。
然而,平台之间直接共享用户信息可能会使得用户的隐私受到泄露和损害。如何在不转移和不共享用户数据的状况下,充分利用不一样平台的用户信息实现协同用户画像和建模是值得研究的一个方向。
4. 面向用户画像的统一用户表示模型。已有的用户画像方法在实际的应用中每每会涉及大量模型的训练、存储和调用,时间和空间的复杂度都比较高,使用起来也比较繁琐。另外,不一样的用户属性之间潜在的联系也没法充分挖掘。
如何基于多源异构的用户数据构建一个统一的用户表示模型,使得该模型能够尽量全面而准确地包含一个用户在不一样属性和维度的特征信息并可以应用于多个用户画像任务是一个很是值得研究的方向。
基于深层神经网络的多任务学习技术和相似词嵌入的用户嵌入技术有但愿可以应用于这个问题。
下一篇文章咱们将围绕“推荐系统中的用户画像”的研究展开讨论。想要了解关于推荐系统的更多研究热点,还请持续关注。
相关阅读:
欢迎你们点赞、收藏,将更多技术知识分享给身边的好友。
本帐号为第四范式智能推荐产品先荐的官方帐号。本帐号立足于计算机领域,特别是人工智能相关的前沿研究,旨在把更多与人工智能相关的知识分享给公众,从专业的角度促进公众对人工智能的理解;同时也但愿为人工智能相关人员提供一个讨论、交流、学习的开放平台,从而早日让每一个人都享受到人工智能创造的价值。
第四范式每一位成员都为人工智能落地贡献了本身的力量,在这个帐号下你能够阅读来自计算机领域的学术前沿、知识干货、行业资讯等。
如欲了解更多,欢迎搜索关注官方微博、微信(ID:dsfsxj)公众号。