1.这里面涉及到较为复杂的用户购物状态的推理和断定,若是不借助人工输入,好比经过产品设计提供用户筛选接口,让用户人工输入限制项,典型的好比过滤器,负反馈,则对目前的机器算法是一个很是大的挑战。而推荐自然就是一个被动信息消费的产品,不适合作很重的意图探索交互,所以,这是目前电商平台上的推荐系统面临的一个较大的挑战。前端
2. 推荐的优化目标,局部与全局的指标权衡。不管承担了多少的角色定位,电商平台的个性化推荐一个万变不离其宗的任务就是达成成交,毕竟,这是一个交易平台,首要目标是最大化GMV(Gross Merchandise Volume)。然而,单纯的优化成交类指标是有局限性的。首先从全局来看,推荐流量上作gmv最优,与全站gmv最优存在不一致性。用户从产生购买意向,到经历购买决策的整个过程,到最后下单,推荐能够做用于任何一个购物链路上的节点,若是推荐系统的优化目标是GMV,那就意味着推荐在作最后的收割,这里收割的gmv是来自于其余模块的培育与引导的结果,而这些gmv即便不被推荐流量所收割,也大几率的会在其余场景被收割,好比购物车,收藏夹或搜索等。所以,推荐单纯作gmv的优化,未必能成就全局的gmv最大化。那么推荐就须要往购物链条的前端去作,作平台gmv的增量,这就引出了一系列的问题,如何使推荐在各个节点的做用可度量,优化目标怎么定,与gmv的关系怎样平衡。算法
3. 用户体验的考量。用户体验反映了一种感觉,既然是种感觉,那它是一个很是主观,很难量化的东西。一旦不能量化,就成了算法最大的挑战。作推荐的同窗应该都深有感触,会收到各类关于体验类的抱怨,好比内容不相关,多样化不够等等。在作商品的推荐时,咱们经常被抱怨的体验问题包括买了还推,推荐商品品类单一,没有让人眼前一亮的商品能知足一下发现的惊喜等等不一而足。每每这些体验问题的解决都须要人工规范的干预,但凡是有规则的介入好比加入购买过滤,类目打散展现等策略,都会形成交易类指标的降低,平衡二者之间的关系对推荐系统是一个现实的挑战。网络
下面向你们介绍一下京东的个性化推荐系统的主要模块以及用到的主要算法。核心模块包括offline pipeline的数据生产;recall部分;预测打分(prediction service),系统框架以下图所示系统框架与传统的推荐系统相似,这里重点介绍下针对电商业务下,各个模块的逻辑和策略。在召回部分,用精准用户画像,经过倒排索引的方式实时的召回。应用协同过滤,及经过神经网络求解每一个商品隐层embedding的表示,应用于召回。有点要提的是因为推荐系统会支持电商平台上各类频道,人群场景以及为你推荐模块内部商品的个性化,也支持店铺,活动等不一样粒度的个性化展示,所以,召回的资源池会多种多样,不只有不一样选品标准的商品池,还有店铺池,活动池,优惠券池,咱们经过实时消息通知和按期全量同步两种机制来保证。内容同步过来后,会有pipeline抽取内容中的特征。在排序阶段,应用业界领先的深度神经网络(DNN),及大规模线性模型,支持十亿级别的特征维度。应用强化学习的方法,实时的捕获用户和环境的交换及反馈,提高推荐效果。session
总结来讲,咱们在推荐系统的效果优化上作了如下几点获得了效果的较大提高。(1) 实时性,系统对用户行为的反应是实时的。(2) 用户画像的精准性,找到用户真正感兴趣的类别,属性及价格区间。使得推荐更精准。(3) 利用知识图谱,丰富商品属性,挖掘商品间的关系,改善用户体验。(4) 经过大规模排序模型,应用海量的特征,提高排序效果。app
提高效果的同时,也面临着一些特殊问题的解决,如冷启动、冷门类目的曝光,这个问题在开始也提到过。对于新品和渗透率低的品类,咱们经过基于内容的sku关系挖掘,使得新品也能够被推荐出来。对于彻底的新用户,咱们会经过强利益点商品的推荐,获得一些反馈。对于某些类别下的新用户,咱们会经过其余类别下的反馈,经过cross-domain推荐和迁移学习等技术进行推荐。框架
下面介绍下算法使用的特征体系:用户画像和商品画像。
用户画像是根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的刻画用户的标签化系统。用户画像分为多个维度,如长期用户画像,中期用户画像,实时用户画像。长期用户画像用来推断性别,年龄,地理位置等标签。这部分应用分类算法完成。中期用户画像经过1个月的用户行为,推断出用户近期感兴趣的cid3,价格,属性等。这部分考虑了浏览的停留时间过滤了无效点击;商详页内是否看评论图片等细节信息。实时用户画像是基于浏览session的,能够实时推断用户每次新的行为后,感兴趣的商品。短时间,长期和实时用户画像共同构成了对用户的精准表达。dom
商品画像是刻画商品的标签化系统。商品标签大体分为两部分:商品的天然属性(好比价格,品牌,销量,产地等),另外一类是有共性的人群属性(好比购买此商品的人的购买能力,城市,年龄等等)。基于这些标签就能够刻画出商品之间的各类关系。知识图谱就是一种目前经常使用的刻画关系的方法,目前被谷歌等公司普遍使用。在推荐系统领域,因为它能够方便的组织知识(好比sku,品牌,产品词,店铺)之间的各类关系,造成各类合理的推荐理由,从而有效的提高推荐结果结果的可解释性。目前咱们已经创建了基于商品之间,品牌之间,以及商品与品牌之间的数十种关系的知识图谱。学习
不一样推荐位和场景会采用不一样的算法。召回和排序部分都有所不一样。好比app首页猜你喜欢偏逛的推荐位,会有更丰富的召回,包括长期中期的兴趣,模型也会应用推荐位的反馈训练的。好比购物车和商详页的推荐,会以购物车中的商品及商详页的主商品为种子商品,根据知识图谱创建起来的商品间的关系召回更多商品,也会有本身的排序模型和特征。大数据
最后一部分,介绍下618个性化大促会场。今年的618,京东取得了不俗的战绩。个性化会场,也称智能卖场在其中发挥了不小的做用。“智能卖场”实现了活动会场的个性化分发,大大提升了流量效率和用户体验,从而达到商家和用户共赢,不只带来gmv的明显提高,也大幅下降了人工成本。优化
为了进一步提高用户购物体验,“智能卖场”还融入到用户的整个购买流程中。智能卖场会在购买路径上发现用户需求并推荐热点产品,以便提升购买效率;从加入购物车到肯定购买产品、准备结算这一阶段,不少用户会造成一个过渡期,若是其间商品出现无货或者下架的状况,智能卖场将会根据产品价格、内容指数等给用户推荐相应的替代品;在提交订单环节,若是订单结算时无货,然后续有其余用户订单取消,经过大数据计算,智能化地推荐给信誉度较高的用户
这里面咱们实现了不止是传统的商品排序,还实现了楼层、活动、品牌、类目、优惠券及店铺等各类会场元素的算法排序,根据每一个人的我的兴趣,给用户展示出其最感兴趣的活动、商品等,而不是像以往同样,全部人是千篇一概的同样的促销活动。
京东用的spark mllib作的推荐吗?仍是本身写的?
有应用spark milib,也有用xgboost
另外在用户画像这一块,有考虑将用户profile向量化吗?
用户画像咱们有用神经网络学习一个隐式的向量表示
用户的行为链条会用rnn建模吗?
会用lstm建模