淘宝上搜索商品,AI如何窥探你的?

阿里技术团队近期发布了《强化学习在阿里的技术演进与业务创新》,阐述了阿里技术团队在淘宝搜索上,利用强化学习方法改进搜索策略的做法。


先说结论:淘宝对每个用户有个精准画像,其中最关键的指标是年龄、性别、购买能力(赤裸裸的欺负人!)。对每个商品有个画像,其中最关键的指标是点击率、价格档位(8档)。以搜索“皮鞋”为例,一开始推荐与用户购买能力匹配的价格档位,如果连续两次点击高价位的“皮鞋”,那么从第三次搜索开始就会发生质的变化,推荐的几乎全是高档“皮鞋”。而且淘宝搜索结果给出的,是最有可能点击或者或者购买的商品。真是目标明确,且看人下菜。


原理分析


640?wx_fmt=png


淘宝搜索用了强化学习方法,来优化搜索结果排序策略Q。状态s为把用户前2次点击的商品价格档位(0~7,从低到高)作为状态,作为强化学习智能体Agent感知到的状态、动作a是商品排序,对策略的奖励R是用户点击了或者购买了推荐的商品。采用Q-Learning的方法直接对排序策略建模为Q(s,a),该策略更新如下:

640?wx_fmt=png

具体的参数更新是:

640?wx_fmt=png

Q-Learning方法不是阿里技术团队的原创,他们只是在里面奖励R上做了一点小创新。这样做的目的是原因是:在淘宝主搜这种大规模应用的场景中,较难在短时间内观察到不同的排序策略在点击和成交这样的宏观指标上的差别。在原始的奖励基础上,加上了一点经验项。

640?wx_fmt=png

也就表示在状态上执行动作时,PV中所有商品能够被点击(或购买)的似然概率之和。经验项即:

640?wx_fmt=png

这种奖励方式非常类似在迷宫游戏里,奖励函数不仅仅是在成功逃出迷宫给出一次性奖励,而且在迷宫里每一步都给予一个额外奖励(如距离出口越近奖励越大),引导AI快速逃出迷宫。在这里经验项就是引导用户快快点,快快买。



往期回顾:

从“猜画小歌”背后的AI原理,教大家如何得高分

何必心中无码,AI让你眼见为实

党给我智慧给我胆,梯度给我努力的方向

【通俗理解】凸优化

【通俗理解】区块链

外卖机器人诞生!快递小哥会失业吗?

刚刚,有位大神用AI搞定了多位女神

你敢@微信官方,不怕它真送你一顶绿色圣诞帽?

别人都在晒18岁照片,而我却在学习~

今日头条败给了色情?AI算法不行,还是另有隐情?

【机器学习】python凭什么能被纳入教材

【机器学习】朴素贝叶斯算法分析

【机器学习】主成分(PCA)算法分析

【机器学习】非线性回归算法分析

【机器学习】线性回归算法分析

  读AlphaZero论文随想

 进击的TensorFlow

 【通俗理解】协方差

【通俗理解】贝叶斯统计

 从一个双控开关思考神经网络(下)

 从一个双控开关思考神经网络(上)

640?wx_fmt=jpeg