- 摘要
卷积神经网络(CNN)一般被认为经过学习对象形状的日益复杂的表示来识别对象。最近的一些研究代表图像纹理具备更重要的做用。咱们在这里经过评估具备纹理-形状线索冲突的图像的CNN和人类观察者来将这些相互矛盾的假设置于定量测试中。咱们代表,ImageNet训练的CNN强烈偏向于识别纹理而不是形状,这与人类行为证据造成鲜明对比,并揭示了根本不一样的分类策略。而后,咱们证实在ImageNet上学习基于纹理的表示的相同标准体系结构(ResNet-50)可以学习基于形状的表示,在ImageNet的stylized版本“Stylized-ImageNet”上进行训练。这为咱们良好控制的心理物理实验室环境中的人类行为表现提供了更好的适应性(共有97个观察者进行了总共48,560次心理物理试验的九个实验),而且具备许多意想不到的突发性好处,例如改进的物体检测性能和之前在普遍的图像失真中看不见的稳健性,突出了基于形状的表示的优势。git
- 方法
在本节中,咱们概述了范式和过程的核心要素。 附录中提供了便于复制的详细信息。 此存储库中提供了数据,代码和材料:https://github.com/rgeirhos/texture-vs-shapegithub
- 心理-物理实验
全部的心理物理实验都是在一个控制良好的心理物理实验室环境中进行的,并遵循Geirhos等人的范例(2018),其容许在彻底相同的图像上直接比较人类和CNN分类表现。简而言之,在每一个试验中,参与者被呈现300ms的固定方格,而后是300ms的刺激图像呈现。在刺激图像以后,咱们呈现全对比度粉红色噪声掩模(1 / f光谱形状)200ms,以最小化人类视觉系统中的反馈处理,从而使前馈CNN的比较尽量公平。随后,参与者必须经过单击显示1500毫秒的响应屏幕来选择16个入门级类别中的一个。在此屏幕上,全部16个类别的图标排列在4X4网格中。这些类别是飞机,熊,自行车,鸟,船,瓶,汽车,猫,椅子,时钟,狗,大象,键盘,刀,烤箱和卡车。这些是Geirhos等人提出的所谓的“16类 - ImageNet”类别(2018)。数据库
相同的图像被送到四个在标准ImageNet上预训练的CNN,即AlexNet(Krizhevsky等,2012),GoogLeNet(Szegedy等,2015),VGG-16(Simonyan&Zisserman,2015)和ResNet-50 (He等,2015)。 使用WordNet层次结构(Miller,1995)-e.g将1,000个ImageNet类预测映射到16个类别。 ImageNet类别虎斑猫将被映射到cat。 总的来讲,本研究中的结果基于48,560项心理物理试验和97名参与者。网络
- 数据集
为了评估纹理和形状误差,咱们进行了六个主要实验以及三个对照实验,这些实验在附录中描述。 前五个实验(图2中可视化的样本)是简单的对象识别任务,惟一的区别是参与者可用的图像特征:架构
原始。160个白色背景的天然彩色图像的对象(每类10个)。性能
Greyscale。原始数据集中的图像使用skimage.color.rgb2gray转换为灰度。 对于CNN,沿着颜色通道堆叠灰度图像学习
Silhouette。原始数据集中的图像转换为轮廓图像,在白色背景上显示彻底黑色的对象(有关步骤,请参阅附录A.6)。测试
Edges。使用在MATLAB中实现的Canny边缘提取器将原始数据集中的图像转换为基于边缘的表示。spa
Texture。纹理的48个天然彩色图像(每类3个)。 一般,纹理由动物的全宽贴片(例如皮肤或毛皮)组成,或者特别是对于人造物体,由具备相同物体的屡次重复的图像组成(例如,彼此相邻的许多瓶子,参见图7中的 附录)。设计
值得注意的是,咱们只选择了由全部四个网络正确分类的对象和纹理图像。 这是为了确保咱们在关于提示冲突的第六个实验中的结果是彻底可解释的,这在形状与纹理假设方面是最具决定性的。 在提示冲突实验中,咱们呈现具备矛盾特征的图像(参见图1),但仍然要求参与者分配单个类。 请注意,对人类观察者的指示是彻底中立的w.r.t. 形状或纹理(“点击您在呈现的图像中看到的对象类别;猜想是否不肯定。没有正确或错误的答案,咱们对您的主观印象感兴趣”)。
Cue conflict。使用迭代样式转移(Gatys等人,2016)在纹理数据集(做为样式)的图像和来自原始数据集(做为内容)的图像之间生成的图像。 咱们共生成了1280个提示冲突图像(每一个类别80个),容许在单个实验会话中向人类观察者进行演示。
咱们将“轮廓”定义为2D中对象的边界轮廓(即,对象分割的轮廓)。 当提到“对象形状”时,咱们使用比仅仅对象的轮廓更宽的定义:咱们指的是描述对象的3D形式的轮廓集,即包括不是轮廓的一部分的那些轮廓。 继Gatys等人以后(2017),咱们将“纹理”定义为具备空间静态统计的图像(区域)。 注意,在很是局部的层面上,纹理(根据该定义)能够具备非静止元素(例如局部形状):例如, 一个瓶子显然有非平稳的统计数据,但许多瓶子彼此相邻被认为是一种质地:“things”变成“stuff”(Gatys等,2017,第178页)。 有关“瓶子纹理”的示例,请参见图7。
- STYLIZED-IMAGENET
从ImageNet开始,咱们经过剥离其原始纹理的每个图像,并经过AdaIN样式转移(Huang&Belongie,2017)将其替换为随机选择的绘画风格,构建了一个新的数据集(称为Stylized-ImageNet或SIN)(参见 图3中的示例),其样式化系数= 1.0。 咱们使用Kaggle的Painter by Numbers数据集做为风格来源,由于它的风格多样和大小(79,434幅画)。 咱们使用AdaIN快速风格转移而不是迭代风格化(例如Gatys等,2016)有两个缘由:首先,确保使用不一样的程式化技术完成SIN训练和提示冲突刺激测试,结果不会依靠单一的程式化方法。 其次,为了实现整个ImageNet的风格化,使用迭代方法须要过长的时间。 咱们提供了在这里建立Stylized-ImageNet的代码:
https://github.com/rgeirhos/Stylized-ImageNet
- 实验结果
- 人和ImageNet训练的CNN的内容与形状偏置对比
CNN和人类几乎都能正确识别全部物体和纹理图像(原始和纹理数据集)(图2)。 对象的灰度版本仍然包含形状和纹理,一样被承认。 当物体轮廓用黑色填充以产生轮廓时,CNN识别精度远低于人类精确度。 这对于边缘刺激来讲甚至更加明显,这代表人类观察者对具备不多或没有纹理信息的图像处理得更好。 在这些实验中的一个混淆是CNN倾向于不能很好地应对域移位,即图像统计从天然图像(网络已被训练)到草图(网络之前从未见过)的大的变化。
所以,咱们设计了一个提示冲突实验,该实验基于具备天然统计的图像,但与纹理和形状证据相矛盾(参见方法)。 参与者和CNN必须根据他们最依赖的特征(形状或纹理)对图像进行分类。 图4中显示了该实验的结果。人类观察者对形状类别(95.9%的正确决策)的反应表现出明显偏向.CNN的这种模式是相反的,这显示了对纹理类别的响应的明显偏见 (VGG-16:形状为17.2%,纹理为82.8%; GoogLeNet:31.2%对68.8%; AlexNet:42.9%对57.1%; ResNet-50:22.1%对77.9%)。
- 克服CNNS的纹理偏见
心理物理实验代表,ImageNet训练的CNN,但不是人类,表现出强烈的纹理误差。 一个缘由多是训练任务自己:从Brendel&Bethge(2019)咱们知道ImageNet能够仅使用本地信息以高精度求解。 换句话说,它可能只须要整合来自许多局部纹理特征的证据,而不是经历整合和分类全局形状的过程。 为了测试这个假设,咱们在Stylized-ImageNet(SIN)数据集上训练了一个ResNet-50,其中咱们用随机选择的艺术绘画的无信息风格取代了与物体相关的局部纹理信息。
在Stylized-ImageNet(SIN)上训练和评估的标准ResNet-50达到了79.0%的前5精度(见表1)。 相比之下,在ImageNet(IN)上训练和评估的相同架构实现了92.9%的前5精度。 这种性能差别代表SIN是一项比IN更难的任务,由于纹理再也不是预测性的,而是一种使人讨厌的因素(根据须要)。 有趣的是,ImageNet的功能很难归纳为SIN(只有16.4%的前5精度); 然而,在SIN上学到的特征很好地归纳了ImageNet(82.6%的前5精度,没有任何微调)。
为了测试局部纹理特征是否仍然足解决SIN,咱们评估所谓的BagNets的性能。 最近由Brendel&Bethge(2019)推出,BagNets采用ResNet-50架构,但其最大感觉区域尺寸限制为9X9,17X17或33X33像素。 这使得BagNets没法学习或使用任何远程空间关系进行分类。 虽然这些受限制的网络能够在ImageNet上达到很高的准确度,但它们没法在SIN上实现相同的效果,显示出较小的感知字段大小(例如SIN的前5精度为10.0%,而对于BagNet的ImageNet为70.0%, 感觉野大小为9X9像素)。 这清楚地代表咱们提出的SIN数据集确实去除了局部纹理线索,迫使网络整合远程空间信息。
最重要的是,SIN训练的ResNet-50在咱们的线索冲突实验中显示出更强的形状偏置(图5),从IN训练模型的22%增长到81%。 在许多类别中,形状偏置几乎与人类同样强烈。
- 基于形状表示的稳健性和准确
增长的形状误差以及所以移位的表示是否也会影响CNN的性能或稳健性? 除了IN和SIN训练的ResNet-50架构,咱们还在此处分析了两种联合训练方案:
- SIN和IN联合训练。
- 对SIN和IN进行联合训练,对IN进行微调。 咱们将此模型称为Shape-ResNet。
而后,咱们在三个实验中将这些模型与vanilla ResNet-50进行了比较:(1)IN的分类性能,(2)转移到Pascal VOC 2007和(3)抗图像扰动的稳健性。
分类性能。如表2所示,Shape-ResNet在top-1和Top-5 ImageNet验证精度方面超过了vanilla ResNet。这代表SIN多是一个有用的数据ImageNet上的扩充,能够在不进行任何体系结构更改的状况下提升模型性
迁移学习。咱们在Pascal VOC 2007上测试了每一个模型的表示做为更快的R-CNN(Ren等人,2017)的主干特征。在训练数据中加入SIN大大提升了物体检测性能,从70.7到75.1 mAP50,如表所示 2.这符合直觉,即对于物体检测,基于形状的表示比基于纹理的表示更有益,由于包含物体的地面实况矩形经过设计与全局物体形状对齐。
抗扰动的稳健性。咱们系统地测试了若是图像被均匀或相位噪声,对比度变化,高通和低通滤波或幻象扰动扭曲,模型精度如何下降。这种比较的结果,包括供参考的人类数据,见图6。在未失真图像上缺乏几个百分点的准确度时,SIN训练的网络在几乎全部图像处理上都优于IN训练的CNN。 (低通滤波/模糊是SIN训练网络更容易受到影响的惟一失真类型,这多是因为经过绘画在SIN中高频信号的过分表现以及对尖锐边缘的依赖。) 训练有素的ResNet-50能够实现人类级失真的稳健性 - 尽管在训练期间从未发现任何扭曲现象。
此外,咱们为ImageNet-C测试的模型提供了稳健性结果,ImageNet-C是15种不一样图像损坏的综合基准(Hendrycks&Dietterich,2019),见附录表4。 SIN和IN联合训练致使13种腐败类型的强烈改进(高斯,射击和脉冲噪声;散焦,格拉斯和运动模糊;雪,霜和雾天气类型;对比度,弹性,像素化和JPEG数字腐败)。 这大大下降了总体腐败错误率,从vanilla ResNet-50的76.7降至69.3。 一样,这些腐败类型中没有一个明确地是训练数据的一部分,强化了在训练体制中结合SIN以很是通常的方式改进模型稳健性。
- 讨论
如引言中所述,CNN使用愈来愈复杂的形状特征来识别物体的共同假设与最近的实证研究结果之间彷佛存在很大的差别,而这些研究结果代表物体纹理的关键做用。为了明确地探究这个问题,咱们利用风格转移(Gatys et al。,2016)来生成具备相互矛盾的形状和纹理信息的图像。在有控制的心理物理实验室环境中对CNN和人类观察者进行普遍实验的基础上,咱们提供证据代表,与人类不一样,ImageNet训练的CNN倾向于根据局部纹理而不是全局物体形状对物体进行分类。与以前的工做相结合,代表改变其余主要对象尺寸,如颜色(Geirhos等,2018)和物体尺寸相对于背景(Eckstein等,2017)不会对CNN识别性能产生强烈的不利影响,这突出了纹理等局部线索在CNN对象识别中的特殊做用。
有趣的是,这为许多至关不连贯的发现提供了解释:CNN符合人类的纹理外观(Wallis等,2017),以及它们对神经反应的预测能力。人脸识别彷佛主要是因为相似人的纹理表征,而不是人类的轮廓表示(Laskar等,2018; Long&Konkle,2018)。此外,基于纹理的生成建模方法,如样式转移(Gatys等,2016),单图像超分辨率(Gondal等,2018)以及静态和动态纹理合成(Gatys等,2015; Funke等人,2017)都使用标准CNN产生了优异的结果,而基于CNN的形状转移彷佛很是困难(Gokaslan等,2018)。美国有线电视新闻网仍然能够识别出混乱形状的图像(Gatys et al。,2017; Brendel&Bethge,2019),可是他们在识别缺乏纹理信息的物体时遇到了更多困难(Ballester&de Ara'ujo,2016; Yu等, 2017年)。咱们的假设也能够解释为何在合成纹理图像数据库上训练的图像分割模型转移到天然图像和视频(Ustyuzhaninov等,2018)。除此以外,咱们的结果显示ImageNet训练的CNN和人类观察者之间存在明显的行为差别。虽然人类和机器视觉系统在标准图像上实现了相似的高精度(Geirhos等,2018),但咱们的研究结果代表,潜在的分类策略可能实际上很是不一样。 这是有问题的,由于CNN被用做人类对象识别的计算模型(例如,Cadieu等人,2014; Yamins等人,2014)。
为了减小CNN的纹理误差,咱们引入了Stylized-ImageNet(SIN),这是一种经过样式转移消除局部线索的数据集,从而迫使网络超越纹理识别。 使用这个数据集,咱们证实ResNet-50架构确实能够学习基于物体形状识别物体,揭示当前CNN中的纹理误差不是设计而是由ImageNet训练数据引发。 这代表标准的ImageNet训练模型可能会经过关注局部纹理来获取“快捷方式”,这能够被视为奥卡姆剃刀的一个版本:若是纹理足够,为何CNN应该学到更多其余东西呢? 虽然纹理分类可能比形状识别更容易,但咱们发如今SIN上训练的基于形状的特征很好地归纳为天然图像。
咱们的结果代表,更多基于形状的表示能够有益于依赖于预训练的ImageNet CNN的识别任务。此外,虽然ImageNet训练的CNN归纳咱们在Stylized-ImageNet上接受过训练的ResNet-50常常达到甚至超过人类级别的稳健性(没有接受过训练,所以对于大范围的图像扭曲(例如2017年的Dodge&Karam; Geirhos等,2017; 2018)特定图像降级。这使人兴奋,由于Geirhos等人 (2018)代表,对特定失真进行训练的网络一般不能得到针对其余未见图像处理的鲁棒性。这种新兴行为突出了基于形状的表示的有用性:虽然局部纹理容易被各类噪声(包括现实世界中的那些噪声,例如雨和雪)扭曲,可是对象形状保持相对稳定。此外,这一发现为人类在应对扭曲时的使人难以置信的稳健性提供了一个很是简单的解释:基于形状的表示。
- 总结
总之,咱们提供的证据代表,今天的机器识别过分依赖于对象纹理而不是一般假设的全局对象形状。 咱们展现了基于形状的表示对强大推理的优点(使用咱们的Stylized-ImageNet数据集在神经网络中引入这种表示)。 咱们设想咱们的发现以及咱们公开可用的模型权重,代码和行为数据集(97个观察者的49K试验)以实现三个目标:首先,更好地理解CNN表示和偏置。 其次,迈向更合理的人类视觉对象识别模型。 第三,这是将来事业的有用起点,其中领域知识代表基于形状的表示可能比基于纹理的表示更有益。