弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介

弱监督学习下商品识别:CVPR 2018细粒度识别挑战赛获胜方案简介

 

细粒度视觉分类(FGCV,Fine-Grained Visual Categorization)即识别细分类别的任务,通常它须要同时使用全局图像信息与局部特征信息精确识别图像子类别。细粒度分类是计算机视觉社区最为有趣且有用的开放问题之一,目前还有不少难题期待解决。算法

2011 年,谷歌开始赞助举办第一届 FGVC Workshop,以后每两年举办一次,到 2017 年已经举办了第四届。而因为近年来计算机视觉的快速发展,FGVC 活动影响力也愈来愈大,从去年开始由两年一次改成了一年一次。网络

从 2017 年开始,FGVC 开始运做两大挑战赛 iNaturalist 与 iMaterialist。今年的 iMaterialist 挑战赛是由国内创业公司码隆科技联合 Google Research、美国知名电商 Wish、Kaggle 举办。值得一提的是,从今年开始 FGVC 开始运行一系列子竞赛:iWildCamp、iFood 等。架构

在 CVPR 2018 尾声的 FGVC Workshop 上,Google Research 资深工程师兼 FGVC5 联合主席张晓对 iMaterialist 2018 挑战赛与比赛解决方案进行了介绍。性能

iMaterialist 2018 挑战赛学习

如何让机器识别达到趋近乃至超过人眼断定的精准度?这是许多计算机视觉科学家们一直致力解决的问题。业内也有许多知名的挑战赛,如 ImageNet、COCO 等。但与 ImageNet 这样的的粗粒度分类竞赛相比,细粒度图像分类技术变得极具挑战性。网站

以 iMaterialist 2018 挑战赛为例,因为细粒度属性的产品看起来很是类似,且商品在不一样光线、角度和背景下拍摄,其识别精度也会受到影响。与此同时,不一样商品的类似特征,也为机器识别增长了必定的难度:好比家具中的球椅和蛋椅,从某些特定角度来看十分类似;再好比服饰的宝蓝色和松绿色,在不一样的光线条件下也存在必定的类似性。编码

所以,细粒度识别相比于通常的图像分类不只须要使用图像的总体信息,同时它应该注意到子类别所独有的局部特征。例如从总总体上肯定球椅和蛋椅都从属于椅子,而后再根据局部细节肯定具体是哪种椅子。spa

「可是相关技术具备更大的实际应用意义」码隆科技表示,「它能够直接转化为工业界的应用,提升效率、减小成本」。设计

在此挑战赛中,码隆科技与美国知名电商平台 Wish 提供了所需的服装和家具图像数据,并会在以后向学术界开放 120 万带标注的商品图像数据集。这次 iMaterialist 2018 挑战赛分为 iMaterialist - Fashion 和 iMaterialist - Furniture 两个 Track。iMat Furniture 2018 的数据集为清理标注过的干净数据,而 iMat Fashion 2018 的数据集为未清理过的噪声数据。图片

通过 3 个多月的角逐,iMaterialist 2018 挑战赛最终分出胜负:

解决方案

通常细粒度识别能够分为两种,即基于强监督信息的方法和仅使用弱监督信息的方法。基于强监督的细粒度识别一般须要使用边界框和局部标注信息,例如 2014 年提出的 Part-based R-CNN 利用自底向上的候选区域(region proposals)计算深度卷积特征而实现细粒度识别。这种方法会学习建模局部外观,并增强局部信息之间的几何约束。而 iMaterialist 2018 仅使用类别标签,所以是一种弱监督信息的细粒度识别。

其实在这一次竞赛中,不少不一样的方法都有它们各自独特的亮点。例如在服装第一名的解决方案中,虽然它也是利用预训练 resnet15二、 xception 和 dn201 等模型并结合 XGBoost 作预测,但 Radek Osmulski 另外使用了 1 Cycle LR Policy 进行精调。

1 Cycle 用两个等长的步骤组成一个 cycle:从很小的学习率开始,慢慢增大学习率,而后再慢慢下降回最小值。Radek Osmulski 在增大学习率的同时下降动量,这也印证了一个直觉:在训练中,咱们但愿 SGD 能够迅速调整到搜索平坦区域的方向上,所以就应该对新的梯度赋予更大的权重。其实在真实场景中,能够选取如 0.85 和 0.95 的两个值,在增大学习率的时候,将动量从 0.95 降到 0.85,在下降学习率的时候,再将动量从新从 0.85 提高回 0.95。

在服装第二名的解决方案中,做者采用了以下网络架构。首先开发者会采用很是多的数据加强方法增长输入图像,例如水平翻转、旋转、高斯模糊、锐化、截取和归一化等方法。而后根据 DenseNet、inception_resnet_v二、Inception-v三、Nasnet 和 ResNet-50 等九个基础卷积网络抽取输入图像的特征,并分别做出预测。最后结合全部基础模型的预测就能得出很是不错的最终结果。

如前所述细粒度识别须要不少局部图像信息才能实现子类别的判断,谷歌(须要确切身份)Xiao Zhang 表示:「选手这些网络最终层的 dimension 都比较小(好比 7x7),这种状况下最终作决策时很难兼顾不一样尺度的信息。若是须要兼顾局部和总体须要使用 Feature Pyramid Network,或者相似于编码器/解码器的结构在最终层使用高维的预测。」

在整个流程中,Stacking CNN 是很是有意思的过程。开发者会将九个模型的预测结果叠加在一块儿为 9×228×1 的张量,其中每个基础模型提供一张 1×228×1 的张量,它表明了模型对 228 个类别的预测结果。以下所示当叠加为这种张量后,咱们可使用 3×1 的卷积在它上面执行步幅为 1 的卷积运算,这种卷积能够学习到各基础模型原始预测之间的相关性。

 

上图输出张量 7×228×8(8 个 3×1 的卷积核),在通过 16 个 3×1 的卷积核执行卷积运算并馈送到全链接层后,就能作出最终的预测。由于 3×1 的卷积其实至关于在同一个类别上,加权三个模型的预测并输出到下一层。因此这也至关于一种集成方法,模型会自动学习不一样基础模型预测的重要性,并结合全部基础模型做出最终预测。

家具细粒度分类的两个解决方案也很是有特色,例如 Roman Khomenko 和 Lei Li 设计的家具第一名解决方案使用了一种称之为几率校准的技术。他们表示在训练集中,类别数量是很是不平衡的,但在验证集中类别数量是平衡的,所以咱们可能须要使用几率校准以解决这种训练于验证之间的分布差别。

Google Research 张晓表示:「校准分为两步: a) 对于每一个 label 的预测几率,除以该类别的物体数,除以对应的先验几率; b) 对全部更新后的 label 的预测几率作归一化(相加获得 1)」

Dmytro Panchenko 和 Alexander Kiselev 设计的解决方案得到了家具第二名,他们其实也使用了多个卷积网络的集成方案。总的来讲,这四个解决方案都是使用多个预训练卷积网络,它们会分别在训练集与验证集中进行学习与调参,而后再使用不一样的集成方案总结各个模型的预测结果。

Dmytro Panchenko 等开发者集成的基础模型。

由于细粒度识别不少时候须要使用注意力机制或 Faster R-CNN 等方法抽取局部特征,并用于预测最终细分类别,而挑战赛中的模型不少都是模型集成。所以咱们可能会比较好奇为何不在竞赛中使用前沿和优秀的细粒度识别模型呢?Dmytro Panchenko 团队解答到:「咱们其实也考虑了这个问题,并花时间进行调查和查文献,也许咱们能够训练出照片上分割目标的网络。但这些方法不少都须要额外的标注,并且咱们也不知道哪些特征对不一样类型的椅子是最重要的,所以咱们只是采用了「默认」的方式(彻底不是由于咱们懒)。」

此外,他们表示:「照片不少都来自在线购物网站,其中 99% 图像的主要目标都在图像中央,几乎是完美的剪裁。所以咱们认为若是训练集足够大,那么 CNN 能从中抽取到足够好的特征。」

最后,做为联合举办单位,码隆科技首席科学家黄伟林博士总结,在多年从事商品识别的研究和实践过程当中,面临的三个主要难点。首先,细粒度商品识别,特别是对 SKU 级别的识别是相当重要的。以下图所示,不一样种类的益达口香糖,在零售过程当中一般价格会不太同样,所以须要做精确区分。其次,除了细粒度分析,SKU 级别的商品识别一般须要识别大量的商品种类,好比超过 10 万类,而常见的 ImageNet 物体识别一般只有 1,000 类。这是商品识别的另外一个挑战,而经常使用的单层 softmax 分类模型很难解决。

这就须要引进多层级联的细粒度分类算法,从而加大细粒度识别的难度。最后,因为商品类别多,就要去更多的海量训练数据和人工标注,好比 10 亿级别的。对于如此数量的人工标注和数据清洗,是很难完成的。所以,如何有效地利用海量网络爬去的商品图片,在没有或者只有少许人工标注和清洗的状况下,训练一个高性能的商品识别模型,成为一个关键的技术。码隆科技最近提出的弱监督学习算法- CurriculumNet,就是专门为训练海量无工人共标注的海量网络图片而设计的。

这次 FGVC5 挑战赛是现实应用场景问题促进算法探究的一次实践,从数据集数量到参赛团队规模都上升到新的台阶,这也说明商品识别这类细粒度识别问题正在引发更多学者、技术从业者关注。据悉,码隆科技和 Google Research 正在积极探究更深刻的细粒度人造物识别场景,并期待下一年继续共同举办相关挑战赛。

相关文章
相关标签/搜索