马蜂窝用户内容贡献能力模型构建

在用户个性化时代,垂直化、精细化的运营,被看做企业重要的竞争力。完整、清晰的用户画像体系,能够帮助企业从海量的用户信息中发掘每一个用户的行为特性、潜在能力及兴趣等信息,从而为用户提供具备针对性的服务。算法

马蜂窝拥有海量的用户出行体验数据,在成长和发展的过程当中一直在探索如何经过基于海量 UGC 的数据挖掘出每一个用户的基本特征、对旅游主题、目的地的偏好和潜在兴趣,从而精准地定位和标记用户,将优质的内容、商品和服务与用户进行链接。网络

今天这篇文章,主要围绕马蜂窝用户标签体系中的「用户贡献能力」标签,来介绍咱们如何挖掘那些对马蜂窝的 UGC 有贡献能力的群体,这样作的价值是什么。架构

 

挖掘用户内容贡献能力的意义

鼓励用户分享原创内容、彼此借鉴旅游信息,是马蜂窝得以持续吸引用户的核心。这些用户产生的原创内容不只包括记录本身旅游体验的攻略、游记,也包括帮助其余用户解决旅行疑惑的问答、点评等。经过这种互享型的内容互动模式,愈来愈多存在个性化旅行需求的用户在马蜂窝完成旅游消费决策的闭环。函数

为了更好地帮助用户提高决策效率,咱们须要挖掘出那些拥有丰富的自由行经验,而且具备必定内容生产能力的旅行者,围绕内容增加、用户活跃制定相关策略。工具

若是只经过用户的等级划分来评估该用户的影响力,显然是存在问题的。咱们都知道,用户等级做为用户激励体系中的一种方式,是对用户过往行为的承认,所以等级通常只会上升不会降低,这种特色致使:优化

  • 用户核心输出能力没法获得有效量化:用户只要天天进行打卡、回复、评论等简单行为也会慢慢升级到高级别;spa

  • 用户升级之后等级固化:例如用户很长时间没有登陆,但从等级来看他的影响力依然很强;3d

  • 没法感知用户的内容输出意愿:即便用户等级高且在近期有过登陆行为,但对哪些话题感兴趣、是否存在生产内容的意愿咱们无从感知。视频

 

为了解决以上问题,咱们将内容贡献能力做为用户画像标签体系中的一个字段进行挖掘,并应用到马蜂窝不少业务当中,好比:blog

旅游问答邀请

马蜂窝问答能够当作是一种更快捷、简短、个性化的旅游攻略。咱们能够圈定近期在该领域内容贡献丰富的、以及内容受欢迎的相关用户,推荐给提问者定向邀请回答,保证旅行者的问题可以快速、准确地被解答。

 

马蜂窝 KOL 挖掘

利用用户内容贡献能力标签,咱们能够更精准地挖掘活跃的、专业的、热爱旅行并能生产高质量内容的 KOL,一方面能够在线上经过邀请入驻、内容推荐等方式,让这些资深旅行者的优质内容获得更多曝光;另外一方面,能够将 KOL 的力量组合起来,转移到线下,用他们的亲身经验最简单地带动用户的直观认知,好比「马蜂窝指路人」等。

图:马蜂窝旅行家专栏

 

图:马蜂窝指路人俱乐部

 

用户内容贡献能力模型

简单来讲,就是从用户的的活跃度、在必定时间内的受欢迎度、输出意愿三个维度构建模型,从而对用户贡献能力进行测度,即:

用户内容贡献能力 = 用户的输出意愿 + 用户的活跃度 + 用户的受欢迎程度

1. 用户活跃度模型

RFM 模型咱们不少人都不陌生,这是衡量用户价值和用户创利能力的经典工具。这里咱们基于马蜂窝旅游社区的场景,将 RFM 模型的三个因素调整为:

A(Activity):用户活跃度

e^(-αt):最近一次访问时间距今天的时间衰减,采用指数衰减,其中 α 为衰减系数。这里利用指数衰减函数作为时间衰减因子,F*E 能够理解为用户的活跃的热度,时间衰减因子体现了用户活跃的热度随着时间逐渐衰减的过程。在马蜂窝场景下,经过对实际数据的调参,咱们选择当时间 t 为一年(365)的时候衰减为最小值 0.0001,此时带入公式求出 α 的值。这里考虑的是用户一年未贡献任何的内容则意愿衰减至最低,求得 α 为 0.0189;

F(Frequency): 用户在特定时间内的内容贡献频次。这里也是基于场景包含对游记、问答、攻略、笔记(图、文、视频结合)等全部类型内容的计算;

E(Engagements):用户最近一次贡献内容的类型,不一样类型的 UGC 对应的值不一样。例如产出一篇游记的难度以及内容的价值要高于回答一个用户的问题,和以图片、视频为主的笔记。通过在马蜂窝全站计算不一样类型的文章在 UGC 数量占比,得出以下结论:游记的 E 值为 5,问答值为 2.5,笔记值为 3 。

2. 用户受欢迎程度 

不管是什么形式的 UGC,被承认的方式一般基本都是经过其余用户的点赞、评论、收藏、分享几种方式。在马蜂窝,游记、问答、攻略、笔记等不一样的文章形式欢迎度是不一样的,好比以图片、视频形式为主要呈现形式的短内容(笔记 )虽然曝光较多,可是被点赞、评论等承认度却不如攻略或者游记这样的长文章。

所以这里经过分析社区中游记、问答、笔记等不一样内容的被赞状况进行分析,算出一个用户欢迎程度最终综合得分和平均分,以下:

以上,W 表明的是用户受欢迎程度的综合得分,α、β、χ 分别表明不一样类型内容的权重因子。这里经过计算全站不一样形式的文章被赞的状况进行分析,得出 α:β:χ = 1:1.05:0.98 ,为了计算方便近似取 α、β、χ  均为1。

Travel 值表示游记的受欢迎程度,计算方式是经过点赞、收藏、分享、回复等相关特征,做为衡量一篇文章是否受欢迎的特征属性,而后经过 logistic 回归模型训练特征权重,以下:

Y 表示训练的文章是不是优质,W_i 表明权重,经过模型训练得出权重的值,N 表明文章类型,vote表明点赞,Fav 表明收藏,Comment 表明评论,Share 表明分享。最后求得权重以经过权重计算 Travel 来评判一篇游记受欢迎的程度。Answer、Note 的计算方式同上。经模型训练的得出结果以下(这里为了计算方便,四舍五入取值小数点后一位):

游记:w1:0.1,w2:0.5,w3:0.2,w4:0.4;

问答:w1:0.2,w2:0.9,w3:0.3,w4:0.6;

笔记:w1:0.1,w2:0.5,w3:0.3,w4:0.6;

3. 用户分享意愿 

用户分享意愿是根据为用户打标签和 PageRank 来实现。将用户贡献内容标签做为用户兴趣的表明,而后结合实际场景,根据 PageRank 计算模型来分析话题与用户之间的关系,结合标签类似度计算向用户推荐其感兴趣、分享意愿高的内容。好比当用户贡献内容标签与当前话题的标签分类属于同一类的时候,咱们能够理解为用户对当前同类标签的话题输出意愿是比较强的。若是用户还贡献过当前话题标签相相似的内容,用户的分享意愿会对应提升。以下:

D 表明用户的内容写做意愿程度,d_i 表明用户对某一类型的文章的贡献意愿(好比写做游记的意愿);

T_i 表明用户在过去时间生产的某一类型内容占用户分享的全部内容比值,其中 T_1 表明游记,T_2 表明问答,T_3 表明笔记;

C_i 表明用户写过的某一类型的文章其中出被评选为优质的数量,同理 C_1 为贡献优质游记的数量,C_2 为贡献优质问答数量,C_3 为贡献优质笔记数量。

N 表明阻尼系数,这里默认 N 值为 0.85。

综上,经过「用户的输出意愿 + 用户的活跃度 + 用户的受欢迎程度」,咱们就能够给出相应的用户 UGC  等级,从而使用户的内容贡献能力获得客观、有效地量化。

 

小结

用户内容贡献模型充分考虑了用户等级设置中没有突出用户行为类型、时间衰减因素,以及没有充分挖掘用户兴趣的三个问题,提出了一种新的模型视角,并在马蜂窝的当前产品中充分应用。

将来,咱们会继续优化算法,例如在模型中加入评论等多个维度的属性;在内容影响力方面加入内容画像的质量分+文章自己的得分,而不只仅局限于优质、蜂首、采纳回答等等,来更加准确地挖掘用户内容贡献能力,完善马蜂窝用户标签体系。

 

本文做者:于允飛 & 张阳,马蜂窝推荐架构 & 用户画像研发工程师。

(题图来源:网络)

关注马蜂窝技术,找到更多你想要的内容

相关文章
相关标签/搜索