阿里搜索推荐系统又双叒叕升级了?!

搜索导购产品做为搜索的流量入口,承载了为用户导购推荐、搜索流量分流的重要功能。主要产品包括:首页底纹、下拉推荐、搜索发现、导航、历史搜索等。通过几年的探索和积累,各个产品愈加地成熟,机器学习算法普遍地应用于导购产品中,取得了显著的效果。在支撑好手淘搜索业务的基础上,搜索导购也积极地拓展边界,支持了集团内大量的产品线。所以对搜索导购产品线提出了更高的要求:不只须要提高自己产品的效率,更好地支持手淘搜索业务,同时也须要有一套灵活的框架,支持更多更广的业务。算法

1、系统框架

导购升级的优化思路从三个方向着手:1.策略升级。利用深度学习及异构网络的思想,对用户个性化进行更深的理解和建模;同时对因马太效应引发的独立query数降低等问题进行优化。 2.导购外投。在包括会场激活页、猜你喜欢等渠道进行搜索导购赋能,为用户打通搜索通路。 3.产品创新。一方面对现有的产品进行创新升级,如激活页、下拉推荐等;另外一方面积极尝试新产品形态,如首页热词、搜索动态卡片等。网络

搜索导购核心解决对消费者关键词推荐的问题,所以虽然产品众多,形态万千,可是在底层架构上有不少共性,所以咱们设计了一套通用灵活的框架进行支持。架构

在召回阶段,咱们丰富了召回方式;并根据不一样的渠道、场景以及产品形态,选择不一样的召回策略获得候选query词candidates。框架

在排序阶段,咱们不只将深度学习引入导购算法框架中,并且创新的加入了异构网络的思想,将用户不一样路径的序列信息结合lstm等模型进行有效融合,对消费者进行更深刻的理解。机器学习

在业务策略阶段,咱们利用 jaccard 系数、编辑距离等进行了对语义重复问题进行了优化,同时结合E&E机制对马太效应较为严重的场景进行了升级,并增长了效率轮播机制使得效率进一步的获得提高。ide

接下来以几个具体的产品来进行详细的介绍。学习

2、详细方案

2.1 底纹推荐优化优化

在底纹推荐的算法优化中,咱们创新性地提出了基于异构网络(Heterogeneous Information Network,后面简称HIN)的推荐方法,推荐框架以下图所示:ui

user,item 和 query 是手淘中三种基本类型的节点,这三种类型节点之间又有不一样的交互关系,好比,user 直接点击 item,user 经过查询 query 进入搜索,并在搜索里发生 item 的点击等。spa

可是,大多数传统推荐方法只关注特征工程,忽略了这些不一样节点之间的关联关系。同时电商领域的大规模数据体量(一亿query,数十亿user和item)也是须要考虑的问题。所以咱们设计提出了一种基于元路径embedding 表示的大规模 query 推荐方法,MetaPath-guided Embedding for Large-scale Query Recommendation(MELQR),它采用异构网络对 query推荐进行建模,并利用元路径经过聚合局部邻居信息来指导 user 和 query 的表示学习,此外,咱们对异构网络中全部节点用term embedding的某种融合方法来进行表示,从而避免了网络学习中的大规模参数问题。

该模型结合扩召回、动态展现等策略,对线上底纹使用uv提高10%+,引导成交金额提高10%+。值得一提的是,该模型目前也同步使用到了导购的其它产品例如搜索发现、首页热词等,效果的提高一样很是明显。

2.2 首页热词优化

首页热词是今年搜索在手淘首页的一个创新性产品,能够帮助用户经过关键词找到感兴趣的商品,加强用户的搜索心智。

2.3 下拉推荐优化

下拉推荐上一个版本的优化目标在于提高下拉引导pv在搜索pv中的占比,即下拉使用率。上个版本试图拟合的是用户对下拉所展现的 query 的偏好程度。可是在其使用的统计类特征中,使用的特征均都是下拉引导的数据。这就带来了一个比较严重的问题,在目前的产品形态下,每次用户输入,只能展现10个候选的 query。所以一开始展现相对较多的 query 会具备相对较高的统计值,而较高的统计值会促进该query 在排序中排到更靠前的位置。所以造成循环,长此以往,在某些特定的 query下,下拉推荐候选词的统计值特征会有很是大的差别。由此造成马太效应。马太效应一个最严重的问题就是会致使下拉展现的 query 会过分收敛到一个较小的集合中,致使引导的独立 query 数降低。

针对这些问题,咱们对下拉推荐模型进行了系统的重构,框架以下:

核心思路一方面增长用户主动输入的特征以及样本,修正下拉自己的马太,另外一方面强化用户个性化特征,加入用户行为序列等。优化模型上线后,对下拉自己的使用pv提高10%+。

2.4 动态卡片优化

当用户的搜索词比较宽泛时,并不能较好地表征用户的搜索意图,用户在搜索结果页的实时点击行为,能更加实时地反应用户当前的意图,此时给用户推荐符合其搜索意图的搜索词,能够提高用户体验。对经过给用户推荐相关搜索词,提高人均 query,进而提高人均pv,提高用户在搜索的停留时长。产品示例以下:

经过持续的优化,动态卡片的展现ctr已经高于商品、内容等卡片,说明用户有很强的意愿点击;同时用户人均 query 提高4%+,人均pv提高1%+,用户体验提高。

2.5 其它工做

除上述几个工做,咱们还支持了搜索发现、会场搜索、推荐风向标、搜索激活页改版等项目优化。

3、双十一效果

导购产品线从多个方面进行优化升级,在双十一也取得了很是不错的效果:一方面基于异构网络与深度学习进行了算法策略升级,加强了个性化表达下降了马太效应,提高了用户使用率,例如首页底纹;另外一方面将导购能力赋能于各个渠道,加强了用户搜索的心智、粘性,提高了各渠道效率,例如首页热词;并对现有的产品进行了交互形态上的创新,丰富产品活力,例以下拉推荐。双十一当天导购导流产品(底纹+热词+会场搜索+风向标)去重使用uv同比去年增速70%+,远高于搜索大盘uv增速。

4、将来工做

  • 1.Graphembedding 的挖掘。咱们已经基于计算平台 Graph mind 搭建了初版的异构网络 metapath2vec 算法,对比 deep walk 效果已经有明显提高,接下来会继续尝试,更灵活方便的获取不一样路径上节点的信息,结合gcn算法进行效果调优。
    1. item2query 挖掘。i2q的数据是导购的一份基础数据,很大程度会影响导购效果。目前的逻辑核心经过用户行为生成,所以存在覆盖较低,冷启动商品无数据等问题。咱们指望能结合智能生成的方法,为商品生成候选query。
  • 3.query到图的挖掘。query以图文展现的形式能够对消费者有更直观的感觉,所以咱们指望能结合图像处理的算法,充分挖掘出能表明query的高质量图片。
  • 4.激活&下拉新形态探索。在移动互联网时代,用户的生活习惯、使用方式等一直都在发生变化,咱们指望经过创新的产品形态能捕捉用户的需求,增长用户的访问时间、停留时长等。


原文连接 本文为云栖社区原创内容,未经容许不得转载。

相关文章
相关标签/搜索