时尚电商新赛道：揭秘 FashionAI 技术

时间 2019-11-19

标签时尚揭秘 fashionai 技术繁體版

原文原文链接

雷音是阿里巴巴研究员、淘系技术部 FashionAI 负责人，在淘系技术嘉年华硅谷站，他分享了《时尚电商新赛道— FashionAI 中的技术》，旨在揭秘：从面向机器学习的知识重建切入，提出了在 AI 能力的推进下，让人值得期待的将来。究竟在阿里巴巴研究员眼中，将来是什么样的？接下来，咱们一块儿探秘。算法

一、从推荐技术提及

用户行为机器学习

从推荐技术提及，首先是基于用户行为的推荐，包括用户的点击行为、浏览行为、购买行为。推荐技术提高了用户找商品的效率，也带来了公司收益的增加。当推荐的效率提升到必定程度的时候，会出现瓶颈，好比说你买了一件上衣以后，还继续给你推上衣，这个问题这些年一直被诟病。若是是基于用户行为的话，会朝着这个问题的改善方向发展。工具

用户画像学习

第二个是用户画像。不少人在作用户洞察，描述用户精准画像。但我始终对用户画像保持怀疑态度，好比说买衣服，你拿的可能都是用户的行为数据：浏览、点击、购买。但是，若是你知道用户肤色的色号、身高、体重、三围，这个用户画像比前者精准多少呢？因此说，所谓的用户洞察、用户画像，今天来看其实仍是很是粗糙的。测试

知识图谱大数据

第三个咱们还能够作知识图谱，来帮助作关联推荐。好比，买鱼竿推荐其余的渔具，买了车灯给你推其余的汽车配件。可是到今天为止，关联推荐的效果还不够好，还有不少困难。人工智能

以上是推荐技术一般会考虑的事。那么咱们用服饰推荐领域来看一下，还有什么其余的可能。一个服装的线下店，咱们对一个导购员的核心考量指标是什么？是关联购买。顾客买了一件衣服，这是不计入导购员贡献的，而导购员经过让用户买另外的关联衣服才是计入导购员的绩效，因此，重要的是关联购买。关联购买里面的重要逻辑是搭配。当咱们把推荐作到具体某一个领域的时候，咱们就有了专属于这个领域的一些推荐逻辑，这就是在平常里面在发生的逻辑。spa

二、为何要作行业知识重建？

接下来，咱们看看怎样才能作好搭配。大部分用户搭配很差的缘由是穿搭须要至关多的知识和经验。衣服的属性，设计元素是抓手，它的准确率和丰富性必定要足够，不够的话作不出可靠的搭配来。设计

知识图谱的典型状况就是经过人的经验或用户数据把不少的知识点关联起来。知识图谱里知识点的生成更可能是经过常识的方式。好比说我是一我的，个人朋友是谁，我上级是谁。“我”这个知识点是经过常识产生的。3d

还有一类方法叫专家系统，好比说咱们有不少红人，把他理解成专家，他所沉淀下的专业经验。每一个领域都会有一些专家，好比医疗系统里就是医生，专家系统大概是在知识图谱兴起以前人工智能广泛采用的方式。

除此以外，还有一层是知识点，是更基础的部分，若是知识点自己有问题的话，在这上面构建出来的知识关系都会有问题。在这个基础上去作 AI 算法，效果就不够好，这多是人工智能难以落地的缘由之一。要有勇气去从新构建这个知识点体系。

引用一个淘宝的例子，下图的上半部分是咱们运营或者设计师的知识体系，这是个“领型”的例子，有圆领、斜领、海军领，能够看出结构是平铺的、散乱的。之前知识是在人和人之间传播的。尤为是在小的圈子里，像设计师群体，知识可能很是含混，只要能沟通就行。再好比医生写的草书，医生之间能够看的懂，可是病人都看不懂。不少知识用于人和人的沟通，有大量的二义性，不完备性。好比说服装风格，一个标签叫作“职场风”，另外一个叫“中性风”。职场风跟中性风从视觉上没法区分，若是人类视觉都难以区分，而机器识别准确率超过80%，那确定哪里出错了。

还有一类，打标签的人可能自己理解就有问题。举个极端的例子，曾经有一段时间，淘宝商家给衣服打标签，有一半的女装上都被商家打上了韩版的标签。然而，它根本不是韩版，只是由于韩版卖的好，这说明商家打的标签不是彻底正确，有必要经过图像直接得出判断。

三、面向机器学习的知识重建

前几年咱们找了淘宝、天猫的服饰运营，综合了几版的运营知识作了规整，不过仍是不够好。去年咱们作 FashionAI 大赛，和港理工的服装系合做，后来和北京服装学院、浙理工都有合做。其实直接由服饰专家们给出的知识体系是不行的，由于咱们须要的是一个面向机器学习的知识体系，机器是要分0和1，完备性、二义性问题、视觉不可分等这几个咱们总结出来的原则，这些都要尽可能知足。

咱们把曾经散落的知识，按照划分逻辑去组织，好比说领部，咱们会根据它布料去分、设计手法去分、颈线边缘去分，从几个维度总结散落的知识点。原先是人心涣散，最终会看到树状知识。咱们把经常使用的女装属性整理出来，一共有206种，这还不包括“流行的设计手法”这种开放性的，不断扩充变化的属性。这个“整理”比你们想象的复杂得多，花了3到4年时间，除了考虑知识自己，还要进一步考察知识点所对应的数据收集难度，必要性。好比说女装的西装领还能够再细分9种，接近视觉不可分，这时停留在女装西装领这个粒度就够了，就再也不作细分。

有时很难事先判断一个属性是否能学出好的模型来，这时属性的定义还要作多轮的迭代。我发现个人属性定义有问题，我倒回去从新定义，而后再从新收集数据、训练模型，直到模型能够达到要求。等作完知识重建，曾经十几个属性识别准确率广泛提升了20%，这个提高是很是大的。

咱们如今有206种女装样式，有166种语义颜色，还有材质、场景、温度等知识体系。怎么定义颜色？在时尚行业里，黄色几乎是没有意义的，讲“柠檬黄”是有意义的，去年女装就流行柠檬黄。咱们知道RGB颜色256256256，在潘通色表里跟服饰相关的一共有2310种颜色，但这个色表里都是色号，消费者无法理解，咱们在上面再建了一层560种有语义对应的颜色，这是跟北京服装学院一块儿定的，用来作按颜色给衣服聚类又显得过细，就又再建一个166种的，就是你们看到相似于“柠檬黄”、“芥末绿”这种语义颜色，到这个阶段消费者才能理解。

还有不少的技术细节，好比说怎么处理光照问题、色差问题等等，也有不少的难的地方，在这里我会主要讲面向机器学习的知识重建。

四、AI 使知识重建的大工程变得可行

接下来问题就来了，我有206种女装样式，收集数据训练模型的话，怎样才能作得完呢，更况且一个定义还可能要多轮迭代修正？

好比，下图中的袖子款式叫风铃袖，一个合格的数据集大概须要3000到4000张图片。收集足够多的，高质量的图片是一个很大的挑战，在2016年为了作一个3000到4000张图片的高质量数据集，大概须要标注超过十万张图片，当时的标注留存率只有1.5%。当时的方法就相似学术界作的，先用一个词去搜回不少图，而后找人标注。更多是始终找不到足够多的图片旁边写着风铃袖，它都没有标注，因此你是搜不到的。所以，知识重建确实是一个巨大的挑战。之前根本没有人有勇气去作，由于你根本作不了。

2016年咱们完成一项属性识别要200天，这个时间包括了定义迭代花的时间。2017年咱们用40天，2018年咱们用2.5天，如今，咱们大概用15个小时，到2019年末，咱们计划是缩减到0.5天。这是一个巨大的改变，咱们提出“少样本学习”。大概是在三年前，当时学术界还没不少人提这个问题，可是咱们已经看到了，由于咱们痛苦的就是这个，不得不开始上手解决它了。

学术界提到“few-short learing”、小数据学习，更可能是偏重如何从少许样本直接获得一个好的模型，咱们选的路不大同样，咱们是从旁边绕路。

今天，咱们把经常使用的96种女装属性完成了，就是利用咱们的少样本学习工具SECT（Small、Enough、Comprehensive），从“少”到“足够多”到“足够好”，最重要的是 SECT 不只在 FashionAI 业务里发生了做用，它还能够作泛内容识别，讲得严谨一点，在“简单内容分类”这类任务上表现得不错。

在泛内容识别上，咱们利用 SECT 系统已经完成70多个标签识别，例如：“插画、阳台、上脚”等标签，咱们已经开始改变业务人员和算法人员的工做模式，你们知道在深度学习出来以前，那时候咱们的业务人员都不大敢提让算法人员给出个识别模型，由于开发周期太长了，为了去识别一个东西我要找算法人员跟他商量，而后算法人员手工去设计特征。为了作一个可以上线的、工业界能用的一个模型，最少花上半年、一年的时间，这是之前的模式。2013年深度学习开始流行以后，这个问题发生了转化。算法人员会说今天有了深度学习，业务人员你收集足够多图片就好了，我给你设计个好模型出来。若是这个模型很差的话，那是你收集的数据质量不行。这时候运营想去收集5000张图片，发现仍是成本很高。

咱们今天还很难用 SECT 去解决机器视觉中的“检测”问题，或者说检测任务在咱们的理解里不是一个“少样本”的问题，在检测任务下应该叫作“弱监督”问题，弱监督跟少样本也有所不一样。

五、对将来的展望

我理解大数据应该分两种，一种是说，你的商业洞察也好，模式分析也好，只有在大规模的数据上才能完成，这是真的大数据；还有一种是说今天的机器学习能力不行，必须有那么多的数据才能出来一个模型，这个叫作伪大数据，由于随着 AI 的能力愈来愈强，须要的样本确定愈来愈少。

之前有公司标榜本身有特别多的数据，好比说人脸数据或什么的，把数据当作了资产。这个说法必定会慢慢落下去，由于 AI 能力愈来愈强，咱们须要的数据量愈来愈少。SECT 再演变下去，会到什么程度？可能中层的跟浅层的算法人员再也不须要了，业务人员直接上去提供十几张图（不会超过50张图）交给系统，很快模型就会返回来，你再测试一下是否好用，若是不行，就再迭代学习，直到模型好用为止。它已经不是之前的，标注阶段、训练阶段、测试阶段，间隔得那么远。今天，整个迭代愈来愈快，若是说迭代能够减小到小时级、分钟级的话，这实际上已经变成了一我的机交互的学习系统，这是将来会带来巨大改变的东西。

淘宝内容平台的运营人员说，过去两个月产出了比以前三年还多的模型。咱们本身组的算法同窗本身也用来解决属性识别以外的各种问题，好比说我来硅谷以前，组里同窗想识别照片里的人是正身仍是背身的，是站姿仍是坐姿，是一个深色人种仍是一个黄皮肤等等，咱们须要在很短的时间里出6个判别模型。今天，咱们能够一两周内让模型上线，准确率、召回率、泛化能力全都能达到要求。放在之前，这个事情没有一年半载是不可能的。

业界里有不少人总结深度学习的局限，好比须要大数据、缺少可解释性，我以为在将来几年，咱们对于什么叫“样本”、什么叫“可解释性”，会有一个新的理解。咱们去年在朱松纯老师主编的《视觉探索》上发了一篇文章，叫《如何作一个实用的图像数据集》，今年咱们有计划写个续篇，就是《如何作一个实用的图像数据集（二）》，会重点聊一聊咱们在少样本学习上的体会和展望。

原文连接本文为云栖社区原创内容，未经容许不得转载。