深度学习-反向传播

时间 2019-12-08

原文原文链接

　　终于明白了反向传播的意义。
　　核心要明白一个概念就是求导就是要经过构建的正向链，而后再经过反向链求导数值。
　　为何要求导数值？由于要求最小值。求什么最小值？
　　求的是损失函数的最小值，能够经过数值方式（倒数公式）来进行求导，也能够通反向传播的方式来求导。
　　为何要求损失函数的极值？
　　由于要经过损失函数的极值来推断出来W值。咱们的终极目标实际上是要求出W的最优质，这个最优质就是实现损失函数最小，为了求最小，因此咱们要求损失函数的导数。
　　可是有一点强调一下：求导数必定是某组数据的导数，或者说空间的某一个点的导数，离开具体的点来说导数没有意义；因此导数的求解其实真实某个样本（空间一点）来求导；由于每一个点的导数都是指向降速最快的地方，因此若是参数在迭代过程当中每次都是向每一个点的法向（可是什么是法向，等高线又是怎么回事），总体就是向最优解方向走。可是，有一点要注意，为了求损失函数的，而逆向求导不是损失函数（公式）自己的逆向，而是从神经网络隐藏层到loss层。
　　下面是gradient的代码：网络

 1  def gradient(self, x, t):
 2         # 构建正向链，自己，咱们是要对loss函数求导，因此这里先构建一下正向链
 3         self.loss(x, t)
 4         # 输出层（softmax）求导
 5         dout = 1
 6         dout = self.lastlayer.backward(dout)
 7         # 隐藏层求导
 8         layers = list(self.layers.values())
 9         layers.reverse()
10         for layer in layers:
11             dout = layer.backward(dout)
12         grads = {}
13         for idx in range(1, self.hidden_layer_size + 2):
14             grads["W" + str(idx)] = self.layers["Affine" + str(idx)].dW + self.weight_decay_lambda * self.layers["Affine" + str(idx)].W
15             grads["b" + str(idx)] = self.layers["Affine" + str(idx)].db
16 
17         return grads

　　这里注意首先调用loss函数目的是为了先正向构建loss函数路径，这个路径包括x层通过的各个层（包括Affine层，Relu层等），最后才到来softmaxloss层，这个层里面是cross_entropy函数；注意：反向不是cross_entropy的函数的反向，而是从softmaxloss到relu到Affine，这个层之间的反向，你经过空间一点（x）正向走完了以后，反向再走一遍就能够求出来cross_entropy的导数。
这里包括下面的是loss函数的实现：函数

1     def loss(self, x, t):
2         y = self.predict(x)
3         weigh_decay = 0
4         # 注意这里+2,是由于还要把lastLayer也给加上
5         for idx in range(1, self.hidden_layer_size+2):
6             W = self.params["W" + str(idx)]
7             weigh_decay += 0.5 * self.weight_decay_lambda * np.sum(W ** 2)
8 
9         return self.lastlayer.forward(y, t) + weigh_decay

　　最后一个问题，为何要有Relu层呢？由于若是都是Affine层的话，训练出来的是线性函数，可是不少场景都是曲线，非线性分布，这个时候就须要为神经网络的学习增长一下非线性的层，来实现对于数据的拟合。学习