神经网络反向传播梯度计算数学原理

时间 2019-11-06

标签神经网络反向传播梯度计算数学原理栏目程序员峰会繁體版

原文原文链接

[神经网络]反向传播梯度计算数学原理

1 文章概述

本文经过一段来自于Pytorch官方的warm-up的例子：使用numpy来实现一个简单的神经网络。使用基本的数学原理，对其计算过程进行理论推导，以揭示这几句神奇的代码后面所包含的原理。html

估计对大多数的同窗来讲，看完这个文章，确定会是这样的感受：字都认识，可是就是不知道讲的是啥~！不过对于有心人来讲，本文确实能起到点睛之笔，就是你研究好久后，还差一点火候就顿悟了，但愿本文可以帮你顿悟。python

关键字：Numpy,神经网络,矩阵分析,反射传播,梯度降低算法

若是发现图片裂了，请左转至其它平台查看：网络

https://zhuanlan.zhihu.com/p/32368246框架

2 实现代码

numpy做为一个科学计算库，并不包含：计算图，尝试学习，梯度等等功能，可是咱们能够简单的经过numpy去拟合一个二层的网络。dom

解决的问题：函数

随机生成一组输入数据，一组输出数据。
定义一个神经网络结构及其参数
根据输入数据正向传播，求出偏差
根据偏差反向传播梯度，更新神经元的各个节点的参数

代码以下：工具

# -*- coding: utf-8 -*-
import numpy as np

# N is batch size; D_in is input dimension;
# H is hidden dimension; D_out is output dimension.
N, D_in, H, D_out = 64, 1000, 100, 10

# Create random input and output data
x = np.random.randn(N, D_in)
y = np.random.randn(N, D_out)

# Randomly initialize weights
w1 = np.random.randn(D_in, H)
w2 = np.random.randn(H, D_out)

learning_rate = 1e-6
for t in range(500):
    # Forward pass: compute predicted y
    h = x.dot(w1)
    h_relu = np.maximum(h, 0)
    y_pred = h_relu.dot(w2)

    # Compute and print loss
    loss = np.square(y_pred - y).sum()
    print(t, loss)

    # Backprop to compute gradients of w1 and w2 with respect to loss
    grad_y_pred = 2.0 * (y_pred - y)
    grad_w2 = h_relu.T.dot(grad_y_pred)
    grad_h_relu = grad_y_pred.dot(w2.T)
    grad_h = grad_h_relu.copy()
    grad_h[h < 0] = 0
    grad_w1 = x.T.dot(grad_h)

    # Update weights
    w1 -= learning_rate * grad_w1
    w2 -= learning_rate * grad_w2

原文见：Learning PyTorch with Examples学习

3 网络结构

将上面的代码结构及相应的参数维度绘图后以下所示：优化

而后本代码使用的是一个大小为64的batch，因此输入的值实际的大小其实是(64,1000)。

把以上的代码转化成数学公式以下，括号里面是相应的矩阵的形状：

4 正向计算

数据流的正向传播

最后计算出损失函数loss，是实际预测值和先验数据矩阵的二范数，做为两组矩阵的距离测度。

正向传播比较简单，基本上大学的线性代数的基本知识看几章，就能很好的理解。这也是后续若是在深度学习框架下面设计网络的时候，注意设计神经元大小的时候，须要考虑矩阵乘法的可行性，即维度相容。

PS：关于矩阵的范数的定义，详情见P32的《1.4.3矩阵的内积和范数》

5 反向传播

5.1 实现代码

下面是反射传播的代码实现：

5.2 数学基础

关于反射传播的数学原理，可能就不是那么好理解了，由于这里面须要用到矩阵的高级算法，通常的理工科数学的《线性代数》甚至《高等代数》里面都没有提到相关的内容，因此基本上已经超过了大多数高校学生的知识范围了。在这个时候，就要祭出张贤达的《矩阵分析》了。

最开始我把本身大学时候的数学书《数学分析》，《高等代数》，《数值计算》都翻了一遍，可是都没有找到相关的内容。感受对于矩阵的微分是一个“三无论”的地带，可是这个内容又是深度学习神经网络中用得最多的数学原理。而后到网上发现了《矩阵分析与应用》，想一想这么厚的一本像百科全书的书，应该是无所不包吧，果真在里面找到了想要的内容。

固然在看书以前，也看了无数的网络文章，相对比较有价值的就下面两篇：

《矩阵求导-上》https://zhuanlan.zhihu.com/p/24709748

《矩阵求导-下》https://zhuanlan.zhihu.com/p/24863977

固然，像数学工具这种内容，建议你们仍是去看书，由于书做为几十年的经典教材，其推导过程，内容的完整性，认证的严密性都是经得起推敲的。网络文章只能帮你们启蒙一下，学几个术语，可是具体想深刻了解细节，建议仍是看书。

言归正传。

上述的不到10行的反向传播梯度，更新参数的代码，在外行人看来是比较神来之笔，彻底摸不着头脑，这是很正常的。由于要理解上述的代码，须要预先储备以下知识（《矩阵分析与应用》）：

矩阵的基本运算。页面P4，章节编号1.1.2
矩阵的内积与范数。P32, 1.4.3
矩阵的迹。P49, 1.6.4
向量化和矩阵化。 P74, 1.11
Jacobian矩阵和梯度矩阵。 P143, 3.1
一阶实矩阵微分与Jacobian矩阵辨识。 P152, 3.2

注意事项：函数有不一样的分类，因此请你们不要全用《线性代数》里面变元全为实数标量的眼光来看待矩阵的变元和矩阵函数的运算。由于它们是不一样的，即便你勉强获得符合代码的结论，那极可能也是“瞎猫碰到死耗子”。关于函数的微分的讨论，光实值函数的分类，就能够分以下几类（P143, 3.1）：

矩阵和Jacobian矩阵在实值区间内是互为转置。在进行数学推导时，都是先根据Jacobian矩阵的辨识方法求出Jacobian矩阵，而后转置后就是相应的梯度。

当定义一个标量函数关于变量的偏导数时：

Jacobian矩阵和梯度矩阵是关于偏导的不一样定义方式，分别是行向量偏导和列向量偏导。只是Jacobian矩阵是一种研究思惟上更天然的选择，可是梯度向量倒是优化和实际工程计算时更天然的选择。

5.3 预测值梯度

grad_y_pred = 2.0 * (y_pred - y)

下面是推导过程，红色笔迹是推导过程的依据，请查阅《矩阵分析与应用》

接着前面的公式，继续求微分：

5.4 参数W2梯度

grad_w2 = h_relu.T.dot(grad_y_pred)

5.5 参数H_relu 梯度

grad_h_relu = grad_y_pred.dot(w2.T)

5.6 Relu梯度

grad_h = grad_h_relu.copy()

grad_h[h < 0] = 0

grad_w1 = x.T.dot(grad_h)

5.7 参数W1梯度

而后后面就是使用梯度和学习率去批量更新参数，实现整个训练过程了。

6 参考资料

《矩阵分析与应用》（第2版）张贤达著，清华大学出版社，2011-11，第2版

本文中全部的引用注解，页面标识都来自于本书。