本文出自 飒然Hang算法
推荐系统是近些年很是火的技术,不论是电商类软件仍是新闻类app,都号称有精准的推荐系统能给你推送你最感兴趣的内容。现象级的资讯类app“今日头条”就得益于此成为了势头很是猛的一款产品。本文就针对推荐系统讲述一些相关概念和实践经验。数据库
首先须要明确的就是推荐系统的目标,通常来讲不外乎如下几个:缓存
基于这些目标,推荐系统包括四种推荐方式:网络
其中,前三者是和机器学习没有任何关系的,但倒是推荐效果最好的三种方式。通常说来,这部份内容应该占到总的推荐内容的80%左右,另外20%则是对长尾内容的个性化推荐。架构
个性化推荐是机器学习应用的一个典型场景。在本质上和搜索引擎是同样的,一样是为了解决信息过载的问题。搜索引擎某种意义上也是一个个性化推荐系统,可是其输入特征是能够从搜索关键字直接能够获得的。而通常的推荐系统,输入特征则是须要机器学习才能获得。app
个性化推荐系统通常由日志系统、推荐算法、内容展现UI三部分组成。框架
其中,个性化推荐中最为核心的推荐算法,目前比较流行的有如下几种:机器学习
个性化推荐系统的典型架构以下图所示:分布式
在线业务系统的日志接入数据高速公路,再由数据高速公路迅速运转到离线数据处理平台和在线流计算平台;离线数据处理平台周期性地以批处理方式加工过去一段时间的数据,获得人群标签和其余模型参数,存放在高速缓存中,供在线业务系统使用,与此同时,在线流计算平台实时对线上的日志数据作处理,对离线计算出的数据进行补充、修正等;在线业务系统综合离线特征和在线特征使用必定的逻辑获得输出供业务使用,产生的日志流入数据高速公路。性能
基于此框架,个性化推荐系统的典型流程以下所示:
可知,一个推荐系统主要有如下模块组成:
对原始的用户行为等数据进行清洗、加工,如字段、属性、格式化等,做为下一步推荐算法的输入。
对于个性化推荐系统来讲,推荐算法应该是其最核心的部分。目前有不少流行的算法,好比:
推荐算法的输出结果通常是一个用户对应一个item列表或者是一个item对应一个item列表。此部分主要考虑的是算法的时间复杂度,不论是哪种算法,一旦用户或者内容数据上了百万级别,都须要经过分布式计算如MapReduce、Spark等来进行解决。
推荐算法的基本流程以下图所示:
对推荐算法产生的结果进行清洗、格式化等,做为下一步存储模块的输入。
存储用户的偏好以及行为数据等信息。对于偏好,采用标签量化来表示,是一种随着时间衰减的值。对于用户画像,是批量写入、实时读取,因此存储要着重考虑读的性能。能够选择使用Redis集群做为技术方案,可以最大知足读的性能,缺点是Redis的成本昂贵且不支持auto index。也可以使用Hbase做为存储,使用ElasricSearch构建二级索引,以应对根据多种维度汇集用户的需求(好比过滤某一个标签下的全部用户)。
对各类推荐算法计算出的推荐结果的存储。存储空间要求大,格式复杂。对于存储的容量和读写性能要求都比较高。能够选择使用Redis集群做为此部分的存储方案。
整合用户画像和推荐结果两部分数据,向外提供推荐调用的接口。主要是数据库IO调用开销。
该模块须要采起必定的策略聚合多种推荐算法的推荐结果,直接面向业务。策略因为会随着面向的业务不一样而不一样,须要可配置化。同时也提供对外暴露用户画像的接口,使得业务方可使用用户画像作针对性的处理。能够采用RPC机制对外暴露服务接口。
对于一个推荐系统,结合其实现目标,还有一些须要注重考虑的问题。
因为计算用户、item矩阵或者进行矩阵分解是须要离线进行且比较耗时,所以协同的推荐算法是很难达到实时性的。实时部分的推荐主要依靠基于用户画像的推荐来进行。最终的推荐列表是根据必定的策略对这两部分进行聚合的结果。
时效性内容指的是那些与时间强相关的内容,好比新闻、时事等。若是一条10天前xx球员得到冠军的新闻如今被推荐了出来,可想用户确定是莫名其妙或者是很失望的。所以,对于时效性内容,须要与普通的待推荐的内容区分开,作单独的推荐或者不走个性化推荐。
无论使用何种推荐算法,都会面临冷启动问题:当用户是新用户,如何给用户推荐item呢?当内容是新内容,如何推荐给用户?
在基于用户画像的推荐算法中,取出用户的多个标签,而后根据相关度从不一样的标签中取不一样数量的内容,这样既兼顾了用户的多种兴趣也可以在必定程度上解决多样性的问题。
如:用户具备tag:A B C D,相关度为wA wB wC wD,Total推荐为总共须要推荐的条数,那么
RecommendList(u) = A[Total推荐 * wA] + B[Total推荐 * wB] + C[Total推荐 * wC] + D[Total推荐 * wD]
不论是热门推荐、人工推荐仍是取某一标签下的内容列表都牵扯到的一个问题就是:如何给内容排序?
当用户对内容的喜爱不同,能够按照兴趣度来排序;但当没法区分兴趣度的时候(好比:用户是新用户;内容都是新内容;用户对于某一标签下的内容兴趣度同样),可使用内容质量来作排序。click/pv是一种评判内容质量的方式。此外,使用卷积神经网络相关算法也能够构建内容质量模型。
推荐系统的惊喜目标一直是一个难题,被称做EE(Exploit & Explore)问题,bandit算法是解决这个问题的一个派系,就是估计置信区间的作法,而后按照置信区间的上界来进行推荐,以UCB、LinUCB为表明的。简单点说就是先不考虑你喜不喜欢就把质量高的内容推荐给你,后面根据用户的行为反馈对推荐内容做调整。具体的能够参见此篇文章:推荐系统的苟且和远方。
借用推荐系统的那点事一文的几句话作为结语:
以上是推荐系统实践的一些经验