全文目录html
原文算法
推荐系统的用户画像取上图中能够将用户和系统中物品链接起来的格子;架构
基于算法二次加工后的画像数据:函数
推荐系统中的用户画像分:学习
经常使用方法: 召回(粗排), 排序;优化
有效链接
;细致刻画
; 根据画像数据中每一个取值平均可以覆盖的用户或物品的多少来判断;覆盖率
; 指一份画像数据可以覆盖到多大比例的用户或物品;差别化能力
; 可否标识出不一样用户, 可以映射到不一样的物品上;计算用户侧画像的基础spa
文本数据的结构化信息抽取3d
在分词和词性标注后, 构造一套针对本身领域和业务的知识图谱以及配套的抽取解析算法, 再根据效果反馈不断调优;code
结构化信息抽取流程:htm
非结构化物品标签, 文本类标签数据+行为类标签数据
复合类型的物品画像, 对物品的深层次描述, 是基于客观属性以及行为数据, 经过算法深层次加工计算获得的;
大部分是经过用户与物品之间的行为计算获得; (局限性: 局限于历史兴趣范围内, 不能给出用户不曾有过行为的兴趣维度)
输入 = 用户行为序列 + 物品的多维度画像;
输出 = 创建在物品画像基础上, 用户对每一个维度画像的兴趣 map;
见文末的用户画像系统架构图
经常使用用户画像的计算方式:
时间衰减法
用户对某个维度的兴趣在行为刚产生时最大, 随着时间不断衰减, 直到可忽略不计;
兴趣的初始最大值, 衰减方式;
\(w_t\) 时间 t 对应的兴趣权重; \(w_0\) 初始兴趣权重, \(\delta_t\) 时刻 t 相比初始时刻过去的时间;
选择指数函数缘由:
\(w_0\) 初期根据业务经验调整;
\(\alpha\), 兴趣的衰减速度, 以"半衰期"计算值, \(0.5x=x \times e^{-\alpha \times \delta_0}\)
时间衰减法的流程:
为不一样类型的画像和行为设置不一样的初值 \(w_0\);
当用户对物品产生行为时:
每次更新用户的画像兴趣度时, 对全部画像维度的兴趣度进行衰减更新, 更新后低于所设置的阈值就从列表中删除, 并将剩余结果进行排序, 以减小后期读写压力;
在使用用户画像时, 首先从存储列表中读取对应维度的画像, 并使用时间差进行时间衰减更新, 而后在下游流程中使用;
缺点:
分析模型预测法
将用户对某个维度画像的兴趣投射到具体行为上, 把这个行为产生与否建模成二分类问题;
向量(嵌入)表示类画像方法
数据特色: N 维的稠密连续向量, 做为一个总体对待;
函数: 输入是表明用户对象画像历史行为的若干向量表示的画像数据; 输出是一个或多个表明用户当前兴趣的向量;
除了基于历史兴趣给出当前兴趣, 须要一些其余方法对用户兴趣进行发散扩展, 保证推荐具备必定的新鲜度和惊喜度;
一跳类似度, 若是有大量用户同时访问了两个物品, 基于此计算出二者之间的类似度;
基于行为的相关性算法缺陷:
基于知识图谱的相关性计算推理
基于路径的方法
用户画像和排序特征的关系
用户画像的维度均可做为排序特征;
全部的排序特征也能够用做用户画像;
本质都是区别用户和物品的关系;
区别: 用户画像看重可解释性, 排序特征对可解释性要求不高(例如为了下降特征维度, 会对原始特征用 PCA 等方法降维, 降维后可解释性就大打折扣);
用户画像系统 = 物品画像 + 基于物品画像使用各类算法生成的用户画像
三个子模块:
一般每人都会负责生成, 存储, 提供调用以及维护等数据的全生命周期;(起步阶段必要经历, 可是不宜时间过长, 会留下技术债)
存在问题:
物品画像系统的架构:
画像生产模块, 统一接收一样格式的输入, 给出一样格式的输出, 即统一的接口实现;
用户画像系统的结构:
画像算法对于处理的是何种画像数据应该是无感知的;
最后的数据服务模块是必要的, 因为写入的数据并非可直接使用的数据;
本文仅做为读书笔记使用!