Going deeper with convolutions——Googlenet论文翻译

时间 2020-04-01

标签 going deeper convolutions googlenet 论文翻译繁體版

原文原文链接

Going deeper with convolutions

摘要

在ImageNet大规模视觉识别挑战赛2014（ILSVRC14）上咱们提出了一种代号为 " Inception " 的深度卷积神经网络结构，且图像分类和检测上取得了新的最好结果。该体系结构的主要特色是提升了网络内的计算资源利用率。这是经过精心设计实现的，该设计容许在保持计算预算不变的同时增长网络的深度和宽度。为了网络的优化质量，架构设计基于Hebbian原则和多尺度处理直觉的基础。咱们在为ILSVRC14 提交的模型文件中使用的一种特殊形式称为 " googlenet " ，它是一个22层深的网络，其质量将在分类和检测的背景下进行评估。算法

1 介绍

过去的三年中，主要因为深刻学习和卷积网络的发展[10]，图像识别和目标检测的能力正之前所未有的速度向前发展。一个使人鼓舞的消息是，这一进步的大部分不只仅是更强大的硬件、更大的数据集和更大的模型的结果，而主要是新的想法、算法和网络结构的改进的结果。例如，ILSVRC 2014竞赛中最靠前的输入除了用于检测目的的分类数据集以外，没有使用新的数据资源。咱们的GoogleNet提交给ILSVRC 2014的报告其实是两年前Krizhevsky等人[9]的获奖架构使用的参数的1/12，并且要更加准确。在目标检测方面，最大的收获不是来自于单独利用深度网络或更大的模型，而是来自于深层架构和经典计算机视觉的协同做用，好比Girshick等人[6]的R-CNN算法。缓存

另外一个显著的因素是，随着移动计算和嵌入式计算的不断发展，咱们算法的效率变得愈来愈重要——尤为是它们对于的能力和内存的使用。值得注意的是，正是包含了此因素的考虑才得出了本文中的深度架构设计，而不是简单的为了提升准确率。对于大多数实验，这些模型的设计是为了保持在推理时15亿乘加的计算预算，于是它们最终不是成为纯粹的学术好奇心，而是能够在合理的成本内投入现实世界的使用，即便是在大型数据集上也是如此。安全

本文将重点研究一种高效的计算机视觉深层神经网络体系结构，代号为 " Inception " ，它的名称来源于Lin等人[12]的网络论文中的网络，以及著名的“咱们须要更深层次的”网络模因[1]。在咱们的例子中，" 深度 " 一词有两种不一样的含义：首先，咱们以“Inception模块”的形式引入了一个新的组织层次，而且在更直接的意义上增长了网络深度。通常来讲，人们能够把初始模型看做是论文[12]的逻辑顶点，同时从Arora等人的理论工做中得到灵感和引导[2]。该架构的优势在ILSVRC 2014分类和检测挑战上获得了实验验证，在这方面，它的性能明显优于目前的先进水平。网络

2 相关工做

从LeNet-5[10]开始，卷积神经网络(CNN)一般有一个标准的结构-堆叠的卷积层(后面可选择添加对比度归一化和最大池)后面是一个或多个全链接层。这种基本设计的变体在图像分类文献中尤其流行，并在mnist、CIFAR和ImageNet分类挑战[9，21]上取得了迄今为止最好的结果。对于大型数据集，如ImageNet，最近的趋势是增长层数[12]和层大小[21，14]，同时使用Dropout[7]来解决过分拟合的问题。数据结构

尽管人们担忧最大池化层会致使精确的空间信息丢失，但与[9]相同的卷积网络结构也被成功地用于定位[9，14]，目标检测[6，14，18，5]和人体姿态估计[19]。架构

从灵长类视觉皮层神经科学模型获得启发，Serre等人[15]使用了一系列固定的不一样大小的Gabor滤波器来处理多尺度。咱们使用了一个相相似的结构。然而，与[15]中固定的2层深度模型相反，在 Inception 初始模型中的全部滤波器都是学习的。此外，Inception层重复了屡次，在GoogLeNet模型中获得了一个22层的深度模型。app

Network-in-Network是Lin等人[12]为了增长神经网络表现能力而提出的一种方法。当应用于卷积层时，该方法能够看做是额外的1×1卷积层，而后是典型的校订线性激活[9]。这使得它可以很容易地集成到目前的CNN管道中。咱们在架构中大量使用这种方法。然而，在咱们的设置中，1×1卷积具备双重用途：最关键的是，它们主要用做降维模块，以消除卷积计算的瓶颈，不然这将会限制咱们的网络规模。这不只容许增长网络的深度，并且还容许咱们网络宽度增长而不会有显著的性能上损失。机器学习

目前主要的目标检测方法是Girshick等人提出的基于区域的卷积神经网络方法(R-CNN)[6]。R-CNN将整个检测问题分解为两个子问题：首先，经过一种类别无关的方式，利用颜色和超像素一致性等低层特征来产生潜在的目标位置候选区域，而后使用CNN分类器识别这些位置上的对象类别。这样一种两个阶段的方法利用了低层特征分割边界框的准确性，也利用了当前CNN很是强大的分类能力。咱们提交的检测报告中采用了相似的方法，但在这两个阶段都进行了改进，例如对于更高的目标边界框召回使用多盒[5]预测，以及更好地对边界框提案进行分类的集成方法。异步

3 动机和深层考虑

改善深层神经网络性能最直接的方法是增长它们的大小。这包括增长网络的深度(层数)及其宽度：每层的单元数。这是一种简单而安全的方法来训练高质量的模型，特别是考虑到大量的标记训练数据的可用性。然而，这个简单的解决方案有两个主要缺点。分布式

更大的规模一般意味着更多的参数，这使得扩大后的网络更容易过分拟合，特别是在训练集中标记示例的数量有限的状况下。这可能成为一个主要的瓶颈，由于建立高质量的培训集多是棘手和昂贵的，特别是若是须要专家评估人员来区分像ImageNet(甚至在1000类ILSVRC子集中)这样的细粒度视觉类别，如图1所示。

图1: ILSVRC 2014分类挑战赛的1000类中两个不一样的类别。区分这些类别须要领域知识。

网络大小均匀增长的另外一个缺点是计算资源的使用急剧增长。例如，在深度视觉网络中，若是将两个卷积层连接起来，它们的滤波器数目的任何均匀增长都会致使计算的二次增加。若是增长的容量没有获得有效的使用(例如，若是大多数权重最终接近于零)，那么大量的计算就会被浪费掉。因为计算预算在实践中老是有限的，所以更倾向于有效分配计算资源，而不是任意增长规模，即便主要目标是提升结果的质量。

解决这两个问题的一个基本的方式就是将全链接层替换为稀疏的全链接层，甚至在卷积层内部。除了模仿生物系统以外，因为Arora等人的开创性工做，这也将具备更坚实的理论基础的优点[2]。它们的主要结果是，若是数据集的几率分布能够用一个大的、很是稀疏的深层神经网络来表示，则最优的网络拓扑结构能够经过分析前一层激活的相关性统计和聚类高度相关的神经元来一层层的构建。尽管严格的数学证实须要很强的条件，但这一说法与众所周知的Hebbian原理产生了共鸣-神经元一块儿激发、一块儿链接-这代表，即便在实际中，在不太严格的条件下，这种基本思想也是适用的。

缺点是，今天的计算架构对于非均匀稀疏数据结构的数值计算效率很低。即便算术运算的数量减小了100倍，查找和缓存丢失的开销仍然占主导地位，所以切换到稀疏矩阵是不会有好处的。随着稳定提高和高度调整的数值库的应用，差距仍在进一步扩大，这些数值库容许极度快速密集的矩阵乘法，利用底层的CPU或GPU硬件[16, 9]的微小细节。此外，非均匀的稀疏模型须要更复杂的工程和计算基础设施。目前大多数面向视觉的机器学习系统都是利用空间域的稀疏性来实现的。可是，卷积是做为与前一层中的补丁的密集链接的集合来实现的。自[11]以来，为了打破对称性和提升学习能力，卷积网习惯上上在特征维中使用随机和稀疏链接表，以更好地优化并行计算，这种趋势又回到了与[9]彻底链接的状态。结构的均匀性和大量的过滤器和更大的批量容许使用高效的密集计算。

这就提出了一个问题：是否有但愿实现下一个中间步骤：一种利用额外稀疏性的体系结构，即便是滤波器级，但正如理论所建议的那样，能经过利用密集矩阵上的计算来利用咱们当前的硬件。关于稀疏矩阵计算的大量文献(例如[3])代表，将稀疏矩阵聚类成相对稠密的子矩阵，每每会给稀疏矩阵乘法提供最早进的实际性能。彷佛不难想象，在不久的未来，相似的方法将被用于非均匀的深度学习体系结构的自动化构建。

Inception架构开始是做为案例研究，用于评估一个复杂网络拓扑构建算法的假设输出，该算法试图近似[2]中所示的视觉网络的稀疏结构，并经过密集的、容易得到的组件来覆盖假设结果。尽管这是一项高度投机性的工做，但只有在对拓扑的精确选择进行了两次迭代以后，咱们已经能够看到与基于[12]的参考架构相比所取得的一些进展。在进一步调整学习率、超参数和改进的训练方法以后，咱们肯定了该Inception结构对于[6]和[5]的基本网络在定位和目标检测方面是特别有用的。有趣的是，虽然大多数最初的架构选择都通过了完全的质疑和测试，但最终它们至少在本地是最优的。

然而必须谨慎：尽管Inception架构在计算机上领域取得成功，但这是否能够归因于构建其架构的指导原则还是有疑问的。要确保这一点须要更完全的分析和验证：例如，若是基于如下原则的自动化工具会发现相似的、但更好的视觉网络拓扑结构。最使人信服的证据是，自动化系统是否会建立网络拓扑，从而在其余领域使用相同的算法，但具备很是不一样的全局架构，从而得到相似的收益。至少，Inception架构的最初成功为在这个方向上激动人心的将来工做提供了坚决的动力。

4 架构细节

Inception架构的主要思想是找出卷积视觉网络中最优的局部稀疏结构是如何被容易得到的密集份量所近似与覆盖的。请注意，假定转换不变性意味着咱们的网络将由卷积积木构建。请注意，假定平移不变性意味着咱们的网络将由卷积积木构建。Arora等人[2]提出一种逐层结构，对上一层的相关统计量进行分析，并将其聚成一组具备高度相关性的单元。这些聚类造成了下一层的单元并与前一层的单元链接。咱们假设来自前一层的每一个单元对应于输入图像的某个区域，而且这些单元被分组为滤波器组。在较低层(接近输入层)，相关单元集中在局部区域。这意味着，咱们最终会有大量的团簇集中在一个单一的区域，它们能够在下一层被1×1的卷积覆盖，就像[12]中所建议的那样。然而也能够预期，将存在更小数目的在更大空间上扩展的聚类，其能够被更大块上的卷积覆盖，在愈来愈大的区域上块的数量将会降低。为了不块校订的问题，目前Inception架构形式的滤波器的尺寸仅限于1×一、3×三、5×5，这个决定更多的是基于便易性而不是必要性。这还意味着所建议的体系结构是全部这些层的组合，它们的输出滤波器组链接成一个单一的输出矢量，造成下一阶段的输入。此外，因为池操做对于当前最早进的卷积网络的成功相当重要，它建议在每一个这样的阶段增长一条可供选择的并行池路径，这也应具备额外的有益效果(见图2(A)。

因为这些“Inception模块”是层叠在一块儿的，它们的输出相关统计量必然会有所不一样：因为较高的抽象特征被较高的层所捕捉，它们的空间浓度预计会下降，这意味着3×3和5×5卷积的比率应该随着咱们移动到更高的层而增长。

上述模块的一个大问题是在具备大量滤波器的卷积层之上，即便适量的5×5卷积也多是很是昂贵的，至少在这种朴素形式中有这个问题。一旦将池单元添加到混合中，这个问题就会更加明显：它们的输出过滤器的数量等于上一阶段的过滤器的数量。将池层的输出与卷积层的输出合并将不可避免地致使从一个阶段到另外一个阶段的输出数量的增长。即便这个体系结构可能覆盖最优的稀疏结构，它也会很是低效率地完成它，在几个阶段内致使计算崩溃。

这致使了Inception架构的第二个想法：在计算要求会增长太多的地方，明智地减小维度和映射。这是基于嵌入式的成功：即便是低维嵌入也可能包含大量关于相对较大的图像修补程序的信息。然而，嵌入以密集、压缩的形式表示信息，压缩后的信息更难建模。咱们但愿在大多数地方保持咱们的表示稀疏(根据[2]的要求)，而且只有当信号必须汇集在一块儿时才对它们进行压缩。也就是说，在昂贵的3×3和5×5卷积以前，使用1×1卷积来进行计算约简。除了用做减小（参数）外，它们还包括使用经校订的线性激活，使它们具备双重用途。最后的结果如图2(B)所示。

通常来讲，Inception网络是由上述类型的模块相互叠加而成的网络，偶尔会有跨越2的最大池层，以将网格的分辨率减半。因为技术缘由(训练期间的内存效率)，彷佛只在较高层开始使用初始模块，而以传统的卷积方式保持较低层的使用是有益的。这不是绝对必要的，只是反映了咱们目前实现中的一些基础结构效率低下。

这个体系结构的主要好处之一是，它容许在每一个阶段显着地增长单元数量，而不会在后面的阶段出现计算复杂度不受控制的爆炸。维数约简的广泛使用使得在上一阶段的大量输入滤波器被屏蔽到下一层，首先减少它们的维数，而后再将它们与大的块大小集合在一块儿。该设计的另外一个实际有用的方面是，它与直觉保持一致，即视觉信息应该在不一样的尺度上进行处理，而后进行聚合，以便下一阶段可以同时从不一样的尺度中提取特征。

经过改进计算资源的使用，能够增长每一个阶段的宽度和阶段数，而不会陷入计算困难。另外一种利用初始架构的方法是建立稍微低劣的，但计算成本较低的版本。咱们已经发现，全部包含的旋钮和杠杆都容许对计算资源进行控制平衡，从而使网络比具备非初始架构的相似执行网络快2−3×，可是这须要在此时进行仔细的手工设计。

5 GoogLeNet

咱们在ilsvrc 14竞赛中选择GoogLeNet做为咱们的团队名称。这个名字是对亚恩莱昂开拓性的 LeNet 55网络[10]的一种敬意。咱们还使用GoogleNet来做为咱们提交的竞赛中所使用的Inception架构的特例。咱们还使用了一个更深更广的初始网络，其质量稍差，但将其添加到集合中彷佛能够稍微提升效果。咱们忽略了网络的细节，由于咱们的实验代表，精确的架构参数的影响相对较小。在这里，为了演示目的，表1描述了最成功的特定实例(名为GoogLeNet)。在咱们集成的7种模型中，有6种采用了彻底相同的拓扑结构(用不一样的采样方法训练)。

全部的卷积都使用了修正线性激活，包括Inception模块内部的卷积。在咱们的网络中感觉野是在均值为0的RGB颜色空间中，大小是224×224。“#3×3 reduce”和“#5×5 reduce”表示在3×3和5×5卷积以前，降维层使用的1×1滤波器的数量。在pool proj列能够看到内置的最大池化以后，投影层中1×1滤波器的数量。全部的这些降维/投影层也都使用了线性修正激活。

该网络的设计考虑了计算效率和实用性，所以能够在单个设备上运行，包括那些计算资源有限的设备，尤为是内存占用较少的设备。当只计算带有参数的层时，网络有22层深度(若是计算pooling 池，则为27层)。用于建造网络的层(独立构建块)的总数约为100层。然而，这个数字取决于所使用的机器学习基础设施系统。在分类器以前使用平均池是基于[12]的，尽管咱们的实现不一样之处在于咱们使用了额外的线性层。线性层使咱们的网络能很容易地适应其它的标签集，但它主要是方便，咱们不指望它有一个重大的影响。咱们发现从全链接层变为平均池化，提升了大约top-1 %0.6的准确率，然而即便在移除了全链接层以后，Dropout的使用仍是必不可少的。

考虑到网络的相对较大的深度，以有效的方式将梯度传播回全部层的能力是一个值得关注的问题。一个有趣的观点是，相对较浅的网络在这项任务上的强大性能代表，网络中间层产生的特性应该是很是有区别的。经过增长与这些中间层相链接的辅助分类器，咱们指望在分类器的较低阶段加强识别，增长传播回来的梯度信号，并提供额外的正则化。这些分类器采用设置在初始(4a)和(4d)模块的输出之上的较小卷积网络的形式。在训练过程当中，它们的损失以折扣权重加到网络的总损失中(辅助分类器的损失加权0.3)。在推理时，这些辅助网络被丢弃。

包括辅助分类器在内的附加网络的具体结构以下：

一个滤波器大小5×5，步长为3的平均池化层，致使(4a)阶段的输出为4×4×512，(4d)的输出为4×4×528。
具备128个滤波器的1×1卷积，用于降维和修正线性激活。
一个全链接层，具备1024个单元和修正线性激活。
丢弃70%输出的丢弃层。
使用带有softmax损失的线性层做为分类器（做为主分类器预测一样的1000类，但在推断时移除）。

6 训练方法

咱们的网络使用分布式机器学习系统对网络进行了训练，使用了少许的模型和数据并行性。尽管咱们仅使用一个基于CPU的实现，但粗略的估计代表GoogLeNet网络能够用更少的高端GPU在一周以内训练到收敛，主要的限制是内存使用。咱们的训练采用异步随机梯度降低的0.9动量[17]，固定的学习速率时间表(下降4%的学习率每8个时代)。利用Polyak平均[13]创建了推理时使用的最终模型。

图像采样方法在过去几个月的竞赛中发生了重大变化，而且已收敛的模型（能够）在其余选项上进行了训练，有时还结合着超参数的改变，例如丢弃和学习率，所以，很难对培训这些网络的最有效的单一方式给予明确的指导。使问题更加复杂的是，一些模型主要是在较小的相对裁剪（crop）上进行训练，另外一些是在[8]的启发下训练更大的crop。不过，有一种处方在比赛后获得了很好的验证，它的尺寸均匀分布在图像区域的8%—100%之间，并在3/4和4/3之间随机选择其长宽比的各类大小的图像块进行采样。此外，咱们还发现，AndrewHoward[8]的光度畸变在必定程度上有助于防止过分拟合。此外，咱们还开始使用随机插值方法(双线性、面积、最近邻和立方，几率相等)来比较晚地调整大小，并结合其余超参数变化，所以没法肯定最终结果是否受到其使用的积极影响。

7 ILSVRC 2014分类挑战设置和结果

ILSVRC 2014分类挑战涉及将图像分类为ImageNet层次结构中的1000个叶节点类别之一的任务。大约有120万张图像用于培训，5万张用于验证，10万张用于测试。每幅图像都与一个地面真相分类器相关联，而且性能是基于最高得分分类器预测来衡量的。一般报告两个数字：top-1准确率，比较实际类别和第一个预测类别，top-5错误率，比较实际类别与前5个预测类别：若是图像实际类别在top-5中，则认为图像分类正确，无论它在top-5中的排名。挑战赛使用top-5错误率来进行排名。

咱们参加了此次挑战，没有使用外部数据进行培训。除了本文中提到的训练技术以外，咱们还在测试中采用了一套技术来得到更高的性能，咱们将在下面对此进行详细的阐述。

咱们独立地培训了7个版本的相同的谷歌网模型(包括一个更普遍的版本)，并与他们一块儿进行了集成预测。这些模型通过相同的初始化(甚至具备相同的初始权重(主要是因为疏忽)和学习速率策略的训练，它们只在采样方法和看到输入图像的随机顺序上有所不一样。
在测试中，咱们采用比Krizhevsky等人[9]更积极的裁剪方法。具体来讲，咱们将图像归一化为四个尺度，其中较短维度（高度或宽度）分别为256，288，320和352，取这些归一化的图像的左，中，右方块（在肖像图片中，咱们采用顶部，中心和底部方块）。对于每一个方块，咱们将采用4个角以及中心224×224裁剪图像以及方块尺寸归一化为224×224，以及它们的镜像版本。这致使每张图像会获得4×3×6×2 = 144的裁剪图像。前一年的输入中，Andrew Howard[8]采用了相似的方法，通过咱们实证验证，其方法略差于咱们提出的方案。咱们注意到，在实际应用中，这种积极裁剪多是没必要要的，由于存在合理数量的裁剪图像后，更多裁剪图像的好处会变得很微小（正如咱们后面展现的那样）。
在多个做物和全部分类器上，对Softmax几率进行平均，以得到最终的预测结果。在咱们的实验中，咱们分析了验证数据的替代方法，例如对裁剪的最大池和对分类器的平均，但它们致使的性能不如简单平均。

在本文的其他部分，咱们分析了影响最终提交的整体性能的多种因素。

咱们在挑战中的最后提交在验证和测试数据上都得到了6.67%的前5位错误，在其余参与者中排名第一。这与2012年的监督方法相比，相对减小了56.5%，与前一年的最佳方法(Clarifai)相比，相对减小了40%，这两种方法都使用外部数据来培训分类器。下表显示了一些性能最好的方法的统计数据。

咱们还经过改变模型的数量和在下表中预测图像时使用的做物数量来分析和报告多种测试选择的性能。当咱们使用一个模型时，咱们选择了一个在验证数据上具备最低前1错误率的模型。全部数字都报告在验证数据集中，以免与测试数据统计数据过度匹配。

8 ILSVRC 2014检测挑战设置和结果

ILSVRC检测任务是在200个可能的类中，围绕图像中的对象生成包围框。若是检测到的对象与地面真相类相匹配，而且它们的边界框至少重叠50%(使用Jaccard索引)，则它们就算做正确的对象。多余的检测被视为假阳性并受到惩罚。与分类任务相反，每幅图像可能包含多个对象，也可能没有对象，它们的比例可能从大到小。报告的结果使用平均精度均值（mAP）。

Google网所采用的检测方法与r-CNN的方法相似[6]，但做为区域分类器的起始模型获得了扩展。此外，经过将选择性搜索[20]方法与多框[5]预测相结合，改进了区域建议步骤，从而提升了目标包围盒召回率。为了减小假阳性的数量，增长了2倍的超像素大小。这将选择性搜索算法中的提议减半。咱们总共补充了200个来自多盒结果的区域生成，大约60%的区域生成用于[6]，同时将覆盖率从92%提升到93%。减小区域生成的数量，增长覆盖率的总体影响是对于单个模型的状况平均精度均值增长了1%。最后，等分类单个区域时，咱们使用了6个GoogLeNets的组合。这致使准确率从40%提升到43.9%。注意，与R-CNN相反，因为缺乏时间咱们没有使用边界框回归。

咱们首先报告顶级检测结果，并显示自初版检测任务以来的进展状况。与2013年的结果相比，准确率几乎翻了一番。表现最好的团队都使用卷积网络。咱们报告表4中的官方分数和每一个团队的共同策略：使用外部数据、集成模型或上下文模型。外部数据一般是用于预训练的ilsvrc 12分类数据，该模型随后对检测数据进行细化。一些团队还提到了本地化数据的使用。因为定位任务边界框的很大一部分不包含在检测数据集中，所以可使用该数据对一个通用的边界盒回归器进行预训练，就像在预训练中使用分类同样。

在表5中，咱们仅比较了单个模型的结果。最好性能模型是Deep Insight的，使人惊讶的是3个模型的集合仅提升了0.3个点，而GoogLeNet在模型集成时明显得到了更好的结果。

9 总结

咱们的结果彷佛提供了一个确凿的证据，证实用现有的密集积木来逼近预期的最优稀疏结构是改进计算机视觉神经网络的一种可行方法。该方法的主要优势是与较浅和较小的网络相比，在计算需求略有增长的状况下得到了显著的质量增益。还要注意的是，咱们的检测工做是有竞争力的，尽管既没有使用上下文，也没有执行边界框回归，这一事实为初始架构的强度提供了进一步的证据。虽然咱们的方法能够经过更昂贵的、深度和宽度类似的网络来实现相似的结果质量，可是咱们的方法提供了确凿的证据，证实移动到稀疏的体系结构在通常状况下是可行的和有用的。这代表将来有但愿在[2]的基础上，以自动化的方式创造更稀疏、更精细的结构。

10 致谢

咱们要感谢Sanjeev Arora和Aditya Bhas卡拉就[2]进行的富有成果的讨论。咱们还要感谢迪贝利夫[4]队的支持，特别是对拉贾特·蒙加、乔恩·希透镜、亚历克斯·克里泽夫斯基、杰夫·迪安、伊利亚·萨茨卡特和安德里亚·弗洛姆的支持。咱们还要感谢汤姆·杜里格和宁·叶在光度畸变方面的帮助。此外，若是没有查克、罗森博格和哈特尼格·亚当的支持，咱们的工做就不可能完成。

参考文献

[1] Know your meme: We need to go deeper. http://knowyourmeme.com/memes/we-need-to-go-deeper. Accessed: 2014-09-15.

[2] S. Arora, A. Bhaskara, R. Ge, and T. Ma. Provable bounds for learning some deep representations. CoRR, abs/1310.6343, 2013.

[3] U. V. C ̧atalyu ̈rek, C. Aykanat, and B. Uc ̧ar. On two-dimensional sparse matrix partitioning: Models, methods, and a recipe. SIAM J. Sci. Comput., 32(2):656–683, Feb. 2010.

[4] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks. In P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, NIPS, pages 1232–1240. 2012.

[5] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014.

[6] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 2014. CVPR 2014. IEEE Conference on, 2014.

[7] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs/1207.0580, 2012.

[8] A. G. Howard. Some improvements on deep convolutional neural network based image classification. CoRR, abs/1312.5402, 2013.

[9] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.

[10] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comput., 1(4):541–551, Dec. 1989.

[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.

[12] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.

[13] B. T. Polyak and A. B. Juditsky. Acceleration of stochastic approximation by averaging. SIAM J. Control Optim., 30(4):838–855, July 1992.

[14] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013.

[15] T. Serre, L. Wolf, S. M. Bileschi, M. Riesenhuber, and T. Poggio. Robust object recognition with cortex-like mechanisms. IEEE Trans. Pattern Anal. Mach. Intell., 29(3):411–426, 2007.

[16] F. Song and J. Dongarra. Scaling up matrix computations on shared-memory manycore systems with 1000 cpu cores. In Proceedings of the 28th ACM Interna- tional Conference on Supercomputing, ICS ’14, pages 333–342, New York, NY, USA, 2014. ACM.

[17] I. Sutskever, J. Martens, G. E. Dahl, and G. E. Hinton. On the importance of initialization and momentum in deep learning. In ICML, volume 28 of JMLR Proceed- ings, pages 1139–1147. JMLR.org, 2013.

[18] C.Szegedy,A.Toshev,andD.Erhan.Deep neural networks for object detection. In C. J. C. Burges, L. Bottou, Z. Ghahramani, and K. Q. Weinberger, editors, NIPS, pages 2553–2561, 2013.

[19] A. Toshev and C. Szegedy. Deeppose: Human pose estimation via deep neural networks. CoRR, abs/1312.4659, 2013.

[20] K. E. A. van de Sande, J. R. R. Uijlings, T. Gevers, and A. W. M. Smeulders. Segmentation as selective search for object recognition. In Proceedings of the 2011 International Conference on Computer Vision, ICCV ’11, pages 1879–1886, Washington, DC, USA, 2011. IEEE Computer Society.

[21] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In D. J. Fleet, T. Pajdla, B. Schiele, and T. Tuytelaars, editors, ECCV, volume 8689 of Lecture Notes in Computer Science, pages 818–833. Springer, 2014.