国美深度学习初体验,开启社交电商的智能时代!

本周五(2017 年 7 月 21 日),由 51CTO 主办的 WOTI2017  全球创新技术峰会将于北京富力万丽酒店举行,这次峰会设有全天的巅峰论坛,及深度学习、人机交互和智+应用等分论坛。前端

国美大数据中心副总监杨骥,将出席深度学习分论坛,作主题为“深度学习开启社交电商智能时代”的演讲。在会前交流中,杨骥介绍了这次演讲的部分技术干货,让咱们抢先看。算法

人工智能、机器学习与深度学习的关系缓存

从冯诺依曼体系结构的提出开始,人类使用计算机就有了智能化的诉求。也就是使用计算机或机器人可以帮助人类作繁杂或者作不到的事情,从根本上来讲,就是提高整个社会的生产效率。网络

相对于机器学习和深度学习,人工智能的概念更为宽泛。在机器学习方法兴起以前,大部分的人工智能应用都是基于逻辑推理实现,即设定N多规则,在不一样场景,让机器或者程序作选择。架构

做为人工智能的一个分支,机器学习利用统计或者几何表达的形式处理问题,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识和技能。直到上世纪90年代,伴随着互联网行业的兴起,机器学习掀起了人工智能领域一个新的热潮。框架

深度学习属于神经网络模型的范畴,自己并非一个新的概念,早在上世纪4、五十年代,就有了最简单的神经网络——感知机模型。运维

2006 年,Geoffrey Hinton 提出了 LayerwisePre-Training 方法训练多层 RBM 网络(即  DBN),神经网络在大数据规模上的效果取得了长足的进展。机器学习

深度学习自己就是对训练数据进行分层表达,将低层级特征逐步抽象成高层级特征的过程,同时拟合出很是复杂的高维非线性函数,这是大多数机器学习模型难以望其项背的。分布式

机器学习在国美的应用实践ide

目前机器学习在国美的应用,常规阶段已经趋近成熟,如基础数据收集、数据处理、特征工程、模型部署等方面,目前的主要工做是算法和业务逻辑的快速迭代。

接下来咱们会在深度学习、计算机视觉、天然语言处理、语音识别等方面继续加大研发力度,除了搜索、推荐、广告等线上业务外,还会重点支持线下门店的新兴购物场景,实现国美社交电商的新零售平台落地。

我入职时,国美在机器学习方面还比较薄弱,以后团队建设、整套算法和架构部署等都由我亲自建设起来。相比以前的效果,GMV  提高幅度很是大。举例来讲,在商品推荐过程当中,利用机器学习排序和传统的排序方式相比,各方面都有很大改变。

初期针对 Web 首页、手机 APP  首页等一些推荐位置,系统基于冷启数据,作一些归类、统计等,展现到页面上,这时每一个用户访问的时候,看到的效果毫无差异。

这样就会使得用户对推荐产品不感兴趣,毫无粘性可言,同时将其余商品宝贵的曝光机会浪费掉了。那么如何作到推荐个性化?这里就涉及到利用机器学习进行推荐的个性化排序。

以下图,是机器学习排序工做流:

先要对海量的数据进行训练,基于用户、查询、商家数据找特征,以后作模型训练,通过线上部署以后,正式上线。

以下图,是推荐排序的训练流程:

推荐排序训练流程分别为场景恢复、训练样本构建、模型训练和线上实验这四部分。

推荐离线模型的构建流程:

  • 收集用户行为,包括点击、加购、关注、下单等。

  • 对行为进行过滤,好比:join(白名单)、统计截断、position-bias、屡次加/删购等处理。

  • 制定行为评分规则,生成评分矩阵。

  • 训练矩阵分解模型。

  • 导入缓存,请输入文案。

以下图,是推荐离线模型的评分规则:

这里值得提醒的是在打分以前,必需要对数据进行清洗,去除“点击狂人”、“用户误点”、“买后查单”等状况。其中,对很是活跃的用户要对他的行为进行降采样。

深度学习在国美的应用实践

传统计算机视觉工做流是由计算机视觉专家进行特征的设计,如 SIFT,KAZE,HoG,SURF 等。以后是训练分类器,进行多目标识别。

以下图,是传统计算机视觉工做流程:

传统计算机视觉领域不只须要领域知识,还须要耗费巨量时间,深度学习的发展给这个领域带来了新的变革。

深度学习工做流是根据训练数据自动构建特征,将特征抽取和分类/检测任务同时进行。深度学习专家须要作的事情就是定义神经网络架构,并进行训练。

以下图,是深度学习工做流:

深度学习会自动训练出好的特征,而且不少方法能够在各个领域中通用。在国美的作法是深度学习+CV 工做流,也就是将计算机视觉特征和深度学习特征相结合。

同时,抽取计算机视觉特征和 DNN 特征,以后进行多目标的识别。以下图:

深度学习与视觉特征

利用机器学习对图像视觉特征进行提取的过程,能够分为四步,分别是图像标注、提取特征、降维和匹配检索

图像标注。对国美全站的商品图像进行标注,这个过程当中最主要的工做是数据清洗,即把不能和品类对应的图片删除或者从新进行品类校准。

先统计国美全站最近一年内各品类下商品总数的分布,而后按照分布进行图片抽样。

提取特征。图片的特征分为经过深度学习获得的特征和图像局部的特征。可利用 caffe 训练 CNN。

将倒数第二层输出做为 Feature Learning 的结果提取出来(Deep Learning + Transfer  Learning),可利用局部特征算子(SIFT,kaze等)提取出图像的局部特征。

降维。用积量化(ProductQuantization)的方法对深度学习获得的特征进行降维,用 Fisher Vector  对图像局部特征进行降维。

匹配检索。采用最近邻搜索的方法找出每个商品的类似商品集合。

深度学习构建 GomePlus 新场景:“拍照购”

基于深度学习构建的“拍照购”场景在国美已经上线,它能够实现根据用户上传的图片预测品类,推荐相关商品。具体步骤以下图:

当用户拍照或者从 PC  和手机选取商品图片上传成功之后,系统就会进行特征向量的计算及匹配。以后猜想用户想要的商品,根据商品图片库的相关结果进行展现。

深度学习构建 GomePlus 新场景:搭配购推荐

基于深度学习的检索技术能够获得一套通用的商品特征学习框架。

在此基础上,针对不一样种类商品,尤为是服装类商品,能够进行搭配推荐。同时有待进一步研究分布式检索引擎、特征压缩、CNN 模型移动端部署等。

深度学习构建 GomePlus 新场景:类似推荐

进行拍照购的同时,咱们还在个性化推荐场景下尝试了基于图片的类似推荐,由于目前主流的推荐召回方法都是在大规模用户协同行为数据上进行建模,会形成召回结果比较集中的问题。

从用户的角度,类似推荐的场景诉求仍是想找到和主商品“相貌相同或者类似”的商品。所以利用图像找类似更符合用户的需求,同时还提升了推荐结果的多样性和新颖性。

写在最后

利用机器学习和深度学习构建推荐场景时,最大的难点是数据源头,即数据收集问题。如今,大多数企业作算法,基本是如何作特征、如何训练模型。

正确的作法应该是从数据收集、前端进行埋点,数据科学部门就应该参与,而不是被动的等待数据进来,基于提供的数据作事情,这是很是关键的点。

将来国美在前沿技术方面的布局着重在计算机视觉和语言识别两大方向,如线下店铺的人脸识别、商品识别、深度学习的云平台、智能辅助购物等。同时,国美还将在图片描述生成、图像  2D 转 3D、以及深度学习个性化排序等方面进行尝试。

本人关注架构、算法,运维等技术领域,有投稿、寻求报道意向技术人请联络 wangxy@51cto.com

杨骥

国美互联网大数据中心副总监

负责个性化搜索和推荐平台规划及搭建。毕业于中国传媒大学,得到机器学习和计算机视觉方向博士学位。前后任职于凡客、京东。多年来致力于机器学习在互联网领域的应用。在搜索、推荐、用户画像、图像分析等方面有着丰富的实战经验和项目管理心得。目前专一于社交电商领域的深度学习技术。

相关文章
相关标签/搜索