训练学习系统的一个主要假设是在整个训练过程当中输入分布是保持不变的。对于简单地将输入数据映射到某些适当输出的线性模型,这种条件老是能知足的,但在处理由多层叠加而成的神经网络时,状况就不同了。
在这样的体系结构中,每一层的输入都受到前面全部层参数的影响(随着网络变得更深,对网络参数的小变化会被放大),所以,在一层内的反向传播步骤中所作的一个小的变化能够产生另外一层输入的一个巨大变化,并在最后改变特征的映射分布。在训练过程当中,每一层都须要不断地适应前一层获得的新分布,这就减慢了收敛速度。
批标准化克服了这一问题,同时减小了训练过程当中内层的协方差移位(因为训练过程当中网络参数的变化而致使的网络激活分布变化)
本文将讨论如下内容git
mean = torch.mean(X, axis=0) variance = torch.mean((X-mean)**2, axis=0) X_hat = (X-mean) * 1.0 /torch.sqrt(variance + eps) out = gamma * X_hat + beta
卷积层
卷积层的实现几乎与之前同样,咱们只须要执行一些改造,以适应咱们从上一层得到的输入结构。github
N, C, H, W = X.shape mean = torch.mean(X, axis = (0, 2, 3)) variance = torch.mean((X - mean.reshape((1, C, 1, 1))) ** 2, axis=(0, 2, 3)) X_hat = (X - mean.reshape((1, C, 1, 1))) * 1.0 / torch.sqrt(variance.reshape((1, C, 1, 1)) + eps) out = gamma.reshape((1, C, 1, 1)) * X_hat + beta.reshape((1, C, 1, 1))
在PyTorch中,反向传播很是容易处理,这里一件重要事情是指定alpha和beta在反向传播阶段更新它们的参数。
为此,咱们将在层中将它们声明为nn.Parameter(),并使用随机值初始化它们。
推理时
在推理过程当中,咱们但愿网络的输出只依赖于输入,所以咱们不能考虑以前考虑mini-batch的统计数据(它们与mini-batch大小相关,所以它们根据数据而变化)。为了确保咱们有一个固定的指望和方差,咱们须要使用整个数据集来计算这些值,而不是只考虑mini-batch,然而,就时间和计算而言,为全部数据集计算这些统计信息是至关昂贵的。
论文中提出的方法是使用咱们在训练期间计算的滑动统计,咱们使用参数beta(动量)调整当前批次计算的指望重要性:
该滑动平均值存储在一个全局变量中,该全局变量在训练阶段更新。为了在训练期间将这个滑动平均值存储在咱们的层中,咱们可使用缓冲区,当咱们使用PyTorch的register_buffer()方法实例化咱们的层时,咱们将初始化这些缓冲区。
最后一个模块
最后一个模块由前面描述的全部块组成。咱们在输入数据的形状上添加一个条件,以了解咱们处理的是全链接层仍是卷积层。
这里须要注意的一件重要事情是,咱们只须要实现forward()方法,由于咱们的类继承自nn.Module,咱们就能够自动获得backward()函数。算法
class CustomBatchNorm(nn.Module): def __init__(self, in_size, momentum=0.9, eps = 1e-5): super(CustomBatchNorm, self).__init__() self.momentum = momentum self.insize = in_size self.eps = eps U = uniform.Uniform(torch.tensor([0.0]), torch.tensor([1.0])) self.gamma = nn.Parameter(U.sample(torch.Size([self.insize])).view(self.insize)) self.beta = nn.Parameter(torch.zeros(self.insize)) self.register_buffer('running_mean', torch.zeros(self.insize)) self.register_buffer('running_var', torch.ones(self.insize)) self.running_mean.zero_() self.running_var.fill_(1) def forward(self, input): X = input if len(X.shape) not in (2, 4): raise ValueError("only support dense or 2dconv") #全链接层 elif len(X.shape) == 2: if self.training: mean = torch.mean(X, axis=0) variance = torch.mean((X-mean)**2, axis=0) self.running_mean = (self.momentum * self.running_mean) + (1.0-self.momentum) * mean self.running_var = (self.momentum * self.running_var) + (1.0-self.momentum) * (input.shape[0]/(input.shape[0]-1)*variance) else: mean = self.running_mean variance = self.running_var X_hat = (X-mean) * 1.0 /torch.sqrt(variance + self.eps) out = self.gamma * X_hat + self.beta # 卷积层 elif len(X.shape) == 4: if self.training: N, C, H, W = X.shape mean = torch.mean(X, axis = (0, 2, 3)) variance = torch.mean((X - mean.reshape((1, C, 1, 1))) ** 2, axis=(0, 2, 3)) self.running_mean = (self.momentum * self.running_mean) + (1.0-self.momentum) * mean self.running_var = (self.momentum * self.running_var) + (1.0-self.momentum) * (input.shape[0]/(input.shape[0]-1)*variance) else: mean = self.running_mean var = self.running_var X_hat = (X - mean.reshape((1, C, 1, 1))) * 1.0 / torch.sqrt(variance.reshape((1, C, 1, 1)) + self.eps) out = self.gamma.reshape((1, C, 1, 1)) * X_hat + self.beta.reshape((1, C, 1, 1)) return out
实验MNIST
为了观察批处理归一化对训练的影响,咱们能够比较没有批处理归一化的简单神经网络和有批处理归一化的神经网络的收敛速度。
为了简单起见,咱们在MNIST数据集上训练这两个简单的全链接网络,不进行预处理(只应用数据标准化)。
没有批标准化的网络架构网络
class SimpleNet(nn.Module): def __init__(self): super(SimpleNet, self).__init__() self.classifier = nn.Sequential( nn.Linear(28 * 28, 64), nn.ReLU(), nn.Linear(64, 128), nn.ReLU(), nn.Linear(128, 10) ) def forward(self, x): x = x.view(x.size(0), -1) x = self.classifier(x) return x
有批标准化的网络架构架构
class SimpleNetBN(nn.Module): def __init__(self): super(SimpleNetBN, self).__init__() self.classifier = nn.Sequential( nn.Linear(28 * 28, 64), CustomBatchNorm(64), nn.ReLU(), nn.Linear(64, 128), CustomBatchNorm(128), nn.ReLU(), nn.Linear(128, 10) ) def forward(self, x): x = x.view(x.size(0), -1) x = self.classifier(x) return x
结果
下图显示了在咱们的SimpleNet的第一层以后得到的激活分布,咱们能够看到,即便通过20个epoch,分布仍然是高斯分布(在训练过程当中学习到的小尺度和移位)。
咱们也能够看到收敛速度方面的巨大进步。绿色曲线(带有批标准化)代表,咱们能够更快地收敛到具备批标准化的最优解。
实验结果详见(https://github.com/sinitame/neuralnetworks-ents/blob/master/batch_normalization/batch_normaliz.ipynb)
结论
使用批标准化进行训练的优势
一个mini-batch处理的损失梯度是对训练集梯度的估计,训练的质量随着批处理大小的增长而提升。
因为gpu提供的并行性,批处理大小上的计算要比单个示例的屡次计算效率高得多。
在每一层使用批处理归一化来减小内部方差的移位,大大提升了网络的学习效率。
原文连接:https://towardsdatascience.com/understanding-batch-normalization-for-neural-networks-1cd269786fa6ide