推荐去中心化

个性化推荐系统简单来讲是一个将user和item进行匹配的一个系统。个性化推荐系统主要包括召回、排序两个典型模块:召回是指根据用户信息和历史行为,从内容池中获取与之相匹配的部份内容(item);排序是指根据用户、内容的特征,经过模型预估出内容的点击率状况。算法

通常来讲,个性化推荐系统的召回主要有:标签召回(用户、内容打标签)、协同召回、热度召回(根据行为计算出来的内容)等,排序模型主要有lr、fm、gbdt、NN网络等。在现实的状况下为了强调个性化,每每过分经过用户的行为来计算召回、排序,这样就会致使一个严重的问题——头部内容集中。问题表现主要分两个阶段:网络

一、马太效应:头部内容得到了大量的推荐(流量),而腰部、尾部的内容只获取到了少许的流量甚至没法获取流量,而且这种状况随着时间会愈来愈明显(强者更强、弱者更弱)。spa

二、信息茧房:从用户角度出发,某我的看到的内容始终是那些品类,相似原地打转。视频

为了减轻上面说的两种状况,通常会经过算法策略来控制流量的分发——去中心化。接下来咱们看下抖音算法逻辑排序

 

抖音算法是很是有魅力的,而使其产生魅力的是抖音的流量分配是去中心化。抖音的推荐算法逻辑能够分为三部分:产品

抖音与其余互联网产品的中心化流量分配不一样,它是去中心化流量分配机制(微博就是中心化流量分配,刚开通微博的粉丝是没有人关注的,而抖音即便是0粉丝,发布的任何小视频都能分配几十甚至上百的流量)。为了确保内容的多样性,针对每一个内容都会预分配必定的流量,从1-200到500到1000阶梯型给流量,根据权重断定给你流量大小,权重越高,内容获取的曝光越高。主要包括:it

一、小权重:完播率、重复率;微博

二、中权重:点赞、转发、评论量...;互联网

三、大权重:热门音乐、挑战话题...;时间

具体以下:

抖音对于一个新的内容,先对其审核,经过后根据内容属性(标签...)进行必定量的试分发(1-200);若是其播完率和重复率超过必定的数量,算法就会将之判断为受欢迎内容,自动为内容加权,分发量扩大到500;若是其点赞、转发、评论超过必定的量,算法又会自动加权,继续扩大分发量。

最后通过大量粉丝的检验,被层层热度加权以后才会进入抖音的推荐内容池,接受几十甚至上百万的大流量洗礼。其热度的评判标准包括两个方面:

  1. 热度权重的参考次序:转发量>评论>点赞量。
  2. 根据时间择新去旧:除非有大量粉丝模仿及跟拍,一条火爆视频的热度最多持续一周。