论文《On the Number of Linear Regions of Deep Neural Networks》翻译

目录

1. 摘要

2. 前馈网络的组成及其特性

2.1 定义

2.2 浅层网络

2.3 深层网络

2.4 将输入标识为空间折叠

2.5 稳定的摄动

2.6 整流器MLP中折痕的经验评估

3. 深层RELU网络

3.1 框架结构

3.2 结果描述

4. 深层Maxout网络

5. 结论


1. 摘要

我们研究了具有分段线性激活的深度前馈神经网络函数的复杂性,包括它们的对称性和线性区域的数量。深度网络能够将每个图层的输入空间的一部分顺序映射到同一输出。这样,深度模型可以计算对不同输入的复杂模式具有同等作用的函数。这些功能的组成结构使它们可以根据网络的深度按指数方式频繁地重复使用计算。本文研究了此类合成图的复杂性,并为具有分段线性激活函数的神经网络的深度优势提供了新的理论结果。特别是,我们的分析并非仅针对单个模型系列,例如,我们将其用于RELU和maxout网络。我们从已有的工作中改善了复杂性界限,并研究了高层中单元的行为。


2. 前馈网络的组成及其特性

本章节是对一些概念的定义,并介绍其具有的性质。

2.1 定义

网络函数:

其中,

  • f:线性预激活函数
  • g:非线性激活函数
  • θ:由权重\mathbf{W_{l}\in \mathbb{R}^{k\cdot n_{l}\times n_{l-1} }}组成
  • b:每一层的偏置

 

因此,我们将会根据线性区域的数量,对由不同网络结构计算出的函数进行分类,来选择不同的参数。

2.2 浅层网络

RELU单元有两种类型的行为:它们可以为常数0或线性,具体取决于其输入。这两个行为之间的边界由一个超平面给出,来自整流层中所有单元的所有超平面的集合形成一个超平面排列。

通常,如果激活函数g在零处具有明显的(即,不规则的)行为(例如,拐点或非线性)。

这些超平面将输入空间划分为多个区域。

在形式上,

\left \{ H_{1} ,...,H_{n_{1}}\right \}\mathbb{R}^{^{n_{0}}}\setminus \left ( \cup _{i}H_{i} \right )的连接部分,即由这些超平面界定的一组点(可能朝无穷大敞开)。

如Zaslavsky(1975)的结论可知,区域数量可以根据排列的特征函数给出

R_{n_{0}}n_{1}个超平面的排列最多具有\sum _{j=0}^{n_{0}}\binom{n_{1}}{j}个区域。此外,当且仅当超平面处于大体位置时,才达到该数量的区域。这意味着由具有n_{0}个输入和n_{1}个隐藏单元的浅层RELU网络计算的函数的线性区域的最大数量为\sum _{j=0}^{n_{0}}\binom{n_{1}}{j}

2.3 深层网络

引言中提到输入邻域,现在我们来定义一下输入邻域。

定义1:

一个映射函数F将两个邻域S和T映射到输出域的公共子集F(S)=F(T),则它会标识其输入域的两个邻域S和T。

在这样的情况下,我们说S和T由F标识。

二维欧几里德空间的四个象限是由绝对值函数g标识的区域。

样例2:

第l层:

网络函数F:

我们用表示F_{l}的图像,即,对于所有可能的输入,第l层可达到的(矢量值)激活的集合。

映射到公共邻域的独立输入空间邻域的数量可以递归地指定为

引理3:

L层网络的最大线性区域数量最少为个,其中,

是由最后一个隐藏层计算的函数的不同线性区域中的一组邻域。

2.4 将输入标识为空间折叠

1、由F标识的S和S’,根据定义1可知,S和S’虽然不相等,但是他们经过映射后,得到的值是相同的,即F(S)=F(S’)。

例如,如下图,函数g绝对值函数对该区域进行了两次折叠(沿每个坐标轴一次),这种折叠确定了二维欧几里得空间的四个象限。

2、在神经网络中,每一个隐藏层都与折叠运算符相关,每个隐藏层均折叠了上一层的激活空间。这是一种递归折叠。

那么,这种折叠的结果是,在最终折叠空间上计算出的任何函数都将应用于连续折叠的空间所标识的所有折叠子集。

即,在深度模型中,在最后一层图像空间的任何分区都在所有输入空间区域中复制。

3、空间折叠不限于沿坐标轴的折叠,而且不必保留长度。

而是根据输入权重W和偏置b中编码的方向和偏移以及每个隐藏层使用的非线性激活函数来折叠空间。

如下图所示,

也就是说,这意味着所识别的输入空间区域的大小和方向可以彼此不同。

2.5 稳定的摄动

我们对深度模型(第3节和第4节)可获得的复杂性的界限是基于对网络权重的适当选择。 但是,这并不意味着所指出的复杂性仅在单个情况下才可以实现。

由于神经网络计算的函数的参数化是连续的。更准确地说,将输入权重和偏置映射到网络计算的连续函数。

给定具有有限数量的线性区域的任意函数F_{\theta },从而对于参数θ的每个b扰动,所得函数至少具有与F_{\theta }一样多的线性区域。F_{\theta }的线性区域在参数的微小扰动下得以保留,因为它们的体积有限。

如果我们在参数空间上定义概率密度,那么由网络表示的函数具有给定数量的线性区域的事件的概率是多少? 通过以上讨论,获得至少与因参数的任何特定选择而产生的区域数量一样大的概率(对于有界域内的统一度量),即使该概率很小,也不为零。 这是因为在该特定的参数选择周围存在一个非零体积的ε球,为此,至少可获得相同数量的线性区域。 例如,浅层RELU网络通常获得最大区域数,即使在任何参数选择的附近,也可能存在与具有很少区域的功能相对应的参数。

2.6 整流器MLP中折痕的经验评估

我们根据经验检查了经过训练的MLP的行为,看它是否以上述方式折叠了输入空间。 首先,我们注意到,在该模型中跟踪每个隐藏单元的激活会给出分段线性映射(从输入到该单元的激活值)。

因此,我们可以通过可视化对应于该图的不同线性片段的不同权重矩阵来分析每个单元的行为。 可以从一个输入示例开始,通过跟踪每个中间层中使用的线性块,来找到一张该图的权重矩阵。 这种可视化技术是我们理论分析的副产品,类似于Zeiler和Fergus(2013)提出的可视化技术,但其动力来自不同的观点。

在为每个训练示例计算了一个中间隐藏单元的激活之后,例如,我们可以检查两个导致隐藏单元激活水平相似的示例。 使用与两个示例相对应的隐藏单元的线性映射,我们会扰动其中一个示例,直到导致完全相同的激活为止。 然后可以将这两个输入安全地视为隐藏单元标识的两个区域中的点。 在补充材料中,我们提供了这种可视化技术的详细信息和示例。 我们还将显示由深层MLP识别的输入。


3. 深层RELU网络

在本节中,我们将根据第2节中的一般分析来分析带有RELU单元的深度神经网络。 我们改进了Pascanu等人的结果。 (2013年),通过深度RELU网络可计算的函数线性区域的最大数量上的下限更严格。 首先,让我们注意上限:

命题4:

在任意的ReLU网络中含有N个隐藏单元,那么该网络的线性区域数量最多为2^{N}个。

3.1 框架结构

我们考虑到,在一层神经网络中,n0个输入变量,n个relu神经元,我们将relu神经元集合划分为基数的n0个子集,而忽略其余单元。

考虑第j个子集中的单位。我们可以选择它们的输入权重和偏差,例如:

通过relu将实线折叠成等长线段。

其中,w为第j个为1,其余为0的向量。那么,wx则是选择x的第j个坐标。

将这些整流器加上交替的符号,我们得到以下标量函数:

 

由于仅作用于第j个输入坐标,因此我们可以将其重新定义为标量输入,即x的第j个坐标。

该函数具有由间隔(-∞,0],[0,1],[1、2],...,[p-1,∞)给定的p个线性区域。

这些间隔中的每一个都有一个子集,该子集被映射到间隔(0,1)上,如下图所示:

现在考虑整流器的所有n_{0}个子集和函数

对于所有j = 1, . . . , n0,此函数关于每个具有固定j坐标xj = 1, . . . ,xj = p - 1(图中的垂直线)的超平面局部对称。

实际上,函数表示以这些超平面为界的超立方体有个。

现在,请注意,是由线性函数(交替和)组成的h产生的。 该线性函数可以有效地吸收到下一层的预激活函数中。 因此,我们可以将视为当前层计算出的函数。 作为此relu神经元的单位超立方体输出的函数,由更深层进行的计算将复制到每个标识的输入空间超立方体上。

3.2 结果描述

我们可以将上述结构推广到一个深整流器网络的情况,其中对于所有i∈[L],输入端为n_{0},L个隐藏层的并且宽度均满足为。 对于深整流器网络的线性区域的最大数量,我们获得以下下限:

定理5:

n_{0}个输入,L层,条件下的最大线性区域数量为

假设对于所有i≥1来说,则具有Ln隐藏单元的单层模型的区域数量将表现为

 

推论6:

n_{0}个输入,L层,条件下的线性区域数量的下限为

因此,我们看到,深层模型的线性区域数量在L中呈指数增长,在n中呈多项式增长,这比具有nL个隐藏单元的浅层模型的线性区域快得多。


4. 深层Maxout网络

maxout网络是前馈网络,其层定义如下:

定义7:

该部分讨论的是maxout网络的线性区域数量。

命题8: 

单层maxout网络,n个输入,m个输出,秩为k,那么该网络的最大线性区域数量的下限为

定理9: L层,n_{0}个输入,秩为k,该maxout网络的线性区域数量至少为

定理9和命题8表明,深层maxout网络可以计算具有多个线性区域的函数,这些线性区域随着层数的增加而呈指数增长,并且比具有相同单位数的浅层模型的最大区域数成指数增长。 与整流器模型相似,该指数行为也可以根据网络参数的数量来确定。 我们注意到,尽管可以由maxout层计算的某些函数也可以由整流器层计算,但是从最后一节开始的整流器构造会导致maxout网络无法计算的函数(在等级2的情况下除外)。 定理9的证明基于第2节中相同的一般论点,但是使用的定理与定理5不同(补充材料中的详细信息)。


5. 结论

我们根据深前馈神经网络的线性区域数量研究了函数的复杂性。 我们特别关注具有分段线性隐藏单元的深度神经网络,最近发现该神经网络在许多机器学习应用程序中均具有出色的性能。 我们讨论了这样一个思想,即深度模型的每一层都能够以某种方式标识其输入,以使层的组成标识出输入区域的指数数量。 这导致指数复制在较高层中计算的函数的复杂性。 通过深层模型以这种方式计算的函数很复杂,但是它们仍然具有由复制引起的固有刚性,这可能有助于深层模型比浅层模型更好地推广到看不见的样本。

该框架适用于具有分段线性激活功能的任何神经网络。 例如,如果我们考虑使用带有整流器单元的卷积网络(在(Krizhevsky et al。2012)中使用的那个),我们可以看到在每个层进行的最大卷积之后的卷积标识了池化区域内输入的所有面片。 这将使这样的深度卷积神经网络递归地识别较低层图像的斑块,从而导致输入空间的指数线性区域成倍增长。

线性区域的结构取决于单位的类型,例如,浅层整流器的超平面布置与浅层maxout网络的Voronoi图。 每种约束类型的优缺点很可能取决于任务,并且此时不容易量化。 至于区域的数量,在maxout和整流器网络中,我们都随着深度的增加而呈指数增长。 但是,关于哪种模型在这方面更强大,我们的界限尚无定论。 这是一个有趣的问题,值得详细研究。

给定网络的参数空间被划分为结果函数具有相应线性区域的区域。 这样的结构的组合通常难以计算,即使对于简单的超平面布置也是如此。 未来分析中一个有趣的问题是,给定网络的参数空间的许多区域是否对应于具有给定数量线性区域的函数。