亚马逊：用CNN进行图像分类的Tricks

时间 2019-12-04

标签亚马逊 cnn 进行图像分类 tricks 繁體版

原文原文链接

自 2012 年 AlexNet 大展神威以来，研究者已经提出了各类卷积架构，包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等，咱们会发现模型的准确率正稳定提高。
网络

可是如今这些提高并不只仅来源于架构的修正，还来源于训练过程的改进：包括损失函数的优化、数据预处理方法的提炼和最优化方法的提高等。在过去几年中，卷积网络与图像分割出现大量的改进，但大多数在文献中只做为实现细节而简要说起，而其它还有一些技巧甚至只能在源代码中找到。架构

在这篇论文中，李沐等研究者研究了一系列训练过程和模型架构的改进方法。这些方法都能提高模型的准确率，且几乎不增长任何计算复杂度。它们大多数都是次要的「技巧」，例如修正卷积步幅大小或调整学习率策略等。总的来讲，采用这些技巧会产生很大的不一样。所以研究者但愿在多个神经网络架构和数据集上评估它们，并研究它们对最终模型准确率的影响。函数

研究者的实验代表，一些技巧能够显著提高准确率，且将它们组合在一块儿能进一步提高模型的准确率。研究者还对比了基线 ResNet 、加了各类技巧的 ResNet、以及其它相关的神经网络，下表 1 展现了全部的准确率对比。这些技巧将 ResNet50 的 Top-1 验证准确率从 75.3％提升到 79.29％，还优于其余更新和改进的网络架构。此外，研究者还表示这些技巧不少均可以迁移到其它领域和数据集，例如目标检测和语义分割等。性能

论文：Bag of Tricks for Image Classification with Convolutional Neural Networks学习

论文地址：https://arxiv.org/pdf/1812.01187.pdf测试

摘要：图像分类研究近期的多数进展均可以归功于训练过程的调整，例如数据加强和优化方法的变化。然而，在这些文献中，大多数微调方法要么被简单地做为实现细节，或仅能在源代码中看到。在本文中，咱们将测试一系列的微调方法，并经过控制变量实验评估它们对最终准确率的影响。咱们将展现经过组合不一样的微调方法，咱们能够显著地改善多种 CNN 模型。例如，咱们将 ImageNet 上训练的 ResNet-50 的 top-1 验证准确率从 75.3% 提高到 79.29。本研究还代表，图像分类准确率的提升能够在其余应用领域（如目标检测和语义分割）中实现更好的迁移学习性能。优化

2 训练过程人工智能

目前咱们基本上都用小批量 SGD 或其变体训练神经网络，Algorithm 1 展现了 SGD 的模版过程（感兴趣的读者能够查阅原论文）。利用普遍使用的 ResNet 实现做为咱们的基线，训练过程主要分为如下六个步骤：3d

随机采样一张图片，并解码为 32 位的原始像素浮点值，每个像素值的取值范围为 [0, 255]。cdn

随机以 [3/4, 4/3] 为长宽比、[8%, 100%] 为比例裁减矩形区域，而后再缩放为 224*224 的方图。

以 0.5 的几率随机水平翻转图像。

从均匀分布 [0.6, 1.4] 中抽取系数，并用于缩放色调和明亮度等。

从正态分布 N (0, 0.1) 中采样一个系数，以添加 PCA 噪声。

图像分别经过减去（123.68, 116.779, 103.939），并除以（58.393, 57.12, 57.375）而得到经归一化的 RGB 三通道。

通过六步后就能够训练并验证了，如下展现了基线模型的准确率：

表 2：文献中实现的验证准确率与咱们基线模型的验证准确率，注意 Inception V3 的输入图像大小是 299*299。

3 高效训练

随着 GPU 等硬件的流行，不少与性能相关的权衡取舍或最优选择都已经发生了改变。在这一章节中，咱们研究了能利用低精度和大批量训练优点的多种技术，它们都不会损害模型的准确率，甚至有一些技术还能同时提高准确率与训练速度。

3.1 大批量训练

对于凸优化问题，随着批量的增长，收敛速度会下降。人们已经知道神经网络会有相似的实证结果 [25]。换句话说，对于相同数量的 epoch，大批量训练的模型与使用较小批量训练的模型相比，验证准确率会下降。所以有不少方法与技巧都旨在解决这个问题：

线性扩展学习率：较大的批量会减小梯度的噪声，从而能够增长学习率来加快收敛。

学习率预热：在预热这一启发式方法中，咱们在最初使用较小的学习率，而后在训练过程变得稳定时换回初始学习率。

Zero γ：注意 ResNet 块的最后一层能够是批归一化层（BN）。在 zero γ启发式方法中，咱们对全部残差块末端的 BN 层初始化γ=0。所以，全部的残差块仅返回输入值，这至关于网络拥有更少的层，在初始阶段更容易训练。

无偏衰减：无偏衰减启发式方法仅应用权重衰减到卷积层和全链接层的权重，其它如 BN 中的γ和β都不进行衰减。

表 4：ResNet-50 上每种有效训练启发式的准确率效果。

3.2 低精度训练

然而，新硬件可能具备加强的算术逻辑单元以用于较低精度的数据类型。尽管具有性能优点，可是精度下降具备较窄的取值范围，所以有可能出现超出范围而扰乱训练进度的状况。

表 3：ResNet-50 在基线（BS = 256 与 FP32）和更高效硬件设置（BS = 1024 与 FP16）之间的训练时间和验证准确率的比较。

4 模型变体

咱们将简要介绍 ResNet 架构，特别是与模型变体调整相关的模块。ResNet 网络由一个输入主干、四个后续阶段和一个最终输出层组成，如图 1 所示。输入主干有一个 7×7 卷积，输出通道有 64 个，步幅为 2，接着是 3 ×3 最大池化层，步幅为 2。输入主干（input stem）将输入宽度和高度减少 4 倍，并将其通道尺寸增长到 64。

从阶段 2 开始，每一个阶段从下采样块开始，而后是几个残差块。在下采样块中，存在路径 A 和路径 B。路径 A 具备三个卷积，其卷积核大小分别为 1×一、3×3 和 1×1。第一个卷积的步幅为 2，以将输入长度和宽度减半，最后一个卷积的输出通道比前两个大 4 倍，称为瓶颈结构。路径 B 使用步长为 2 的 1×1 卷积将输入形状变换为路径 A 的输出形状，所以咱们能够对两个路径的输出求和以得到下采样块的输出。残差块相似于下采样块，除了仅使用步幅为 1 的卷积。

咱们能够改变每一个阶段中残差块的数量以得到不一样的 ResNet 模型，例如 ResNet-50 和 ResNet-152，其中的数字表示网络中卷积层的数量。