详解反向传播算法(下)

转自:https://zhuanlan.zhihu.com/p/25416673

神经网络结构图:

示例网络图


其中C是损失函数,例如C可以取:


梯度下降(SGD)进行学习时,核心问题是求解损失函数C关于所有网络参数w_{jk},b_j的偏导数\frac{\partial C}{\partial w_{jk}} ,\frac{\partial C}{\partial b_j}。 根据详解反向传播算法(上) 我们已经知道用反向传播算法可以“一次反向计算”得到损失函数C关于网络中所有参数的偏导数。模仿详解反向传播算法(上) 的推理过程,我们首先画出上面网络图的详细计算图:再看看具体怎么样反向传播求偏导数。

神经网络计算图

对应计算图如下:(只展开了最后两层的计算图):


绿色代表权重参数w_{jk},橙色代表基底参数b_j。可见虽然网络图上只是简单几条线,计算图还是蛮复杂的。

现在我们在计算图箭头上标出对应的偏导数(只标出了一部分)。


反向传播四公式

上面计算图上每一个节点关于前一个节点的偏导数都可以求得,根据求导的链式法则,想要求损失函数C关于某一节点的偏导数,只需要“把该节点每条反向路径上的偏导数做乘积,再求和”即可。(w_{jk},b_j分别对应绿色和橙色的节点)

现在我们已经可以在计算图上求得损失函数C关于模型参数的偏导数\frac{\partial C}{\partial w_{jk}} ,\frac{\partial C}{\partial b_j}。但是还不够优雅,反向传播算法要优雅的很多,它通过定义一个损失(\delta_j^l),先逐层向后传播得到每一层节点的损失(\delta_j^l),再通过每一个节点的损失(\delta_j^l)来求解该节点的\frac{\partial C}{\partial w_{jk}} ,\frac{\partial C}{\partial b_j}

首先记损失函数C关于l层的第j个元素的偏导为:\delta_j^l \equiv \frac{\partial C}{\partial z_j^l}

最后一层

对于最后一层(L层)的元素j会有:

\delta_j^L = \frac{\partial C}{\partial z_j^L}=\frac{\partial C}{\partial a_j^L} \cdot \frac{\partial a_j^L}{\partial z_j^L} = \frac{\partial C}{\partial a_j^L} \cdot \sigma^{'}(z_j^L)

向量化为:

\bm \delta^L = \begin{pmatrix} \delta_1^L \\\vdots \\ \delta_j^L \\   \vdots\\  \delta_n^L \end{pmatrix}= \begin{pmatrix} \frac{\partial C}{\partial a_1^L} \cdot \sigma^{'}(z_1^L) \\\vdots \\ \frac{\partial C}{\partial a_j^L} \cdot \sigma^{'}(z_j^L) \\   \vdots\\  \frac{\partial C}{\partial a_n^L} \cdot \sigma^{'}(z_n^L) \end{pmatrix}= \begin{pmatrix} \frac{\partial C}{\partial a_1^L} \\\vdots \\ \frac{\partial C}{\partial a_j^L} \\   \vdots\\  \frac{\partial C}{\partial a_n^L} \end{pmatrix}\odot  \begin{pmatrix} \sigma^{'}(z_1^L) \\\vdots \\ \sigma^{'}(z_j^L) \\   \vdots\\  \sigma^{'}(z_n^L) \end{pmatrix} =  \bm \nabla_aC \odot  \sigma^{'}(\bm z^L) (BP1)

其中\odot的操作是把两个向量对应元素相乘组成新的元素。

后一层传播到前一层

由前面计算图中L和L-1层所标注的偏导数,可得到倒数第一层(L-1)元素j的损失为:(请仔细对照前面的计算图)\delta_j^{L-1} = (\sum_{j=1}^n{\frac{\partial z_j^L}{\partial a_{k}^{L-1}}  \delta_j^L }) \cdot \sigma_{'}(z_j^{L-1}) = (\sum_{j=1}^n{w_{jk}^L \delta_j^L } ) \cdot  \sigma_{'}(z_j^{L-1})  =\begin{pmatrix} w_{1k}^L \cdots w_{jk}^L \cdots  w_{nk}^L\\  \end{pmatrix} \begin{pmatrix} \delta_1^L \\  \vdots \\  \delta_j^L\\\vdots\\\delta_n^L \end{pmatrix}\cdot \sigma^{'}(z_j^{L-1})

向量化:\delta^{L-1} = ((w^{L})^T\delta^{L} \odot \sigma^{'}(z^{L-1}) )

这启发我们后一层(l+1层)的损失\delta^{l+1} 如何传播到前一层(l层)得到\delta^l。(只需要把L用l+1替换,L-1l替换)就得到了逐层传播损失的公式:

\bm \delta^{l} = ((\bm w^{l+1})^T \bm \delta^{l+1} \odot \sigma^{'}(\bm z^{l}) )(BP2)

关于b_j^l的偏导数

\frac{\partial C}{\partial b_j^l} =\frac{ \partial C}{ \partial z_j^l} \frac{\partial z_j^l}{\partial b_j^l} = \delta_j^l \cdot 1 = \delta_j^l(BP3)

向量化:\frac{\partial C}{\partial b^l} =\bm \delta^l


关于w_{jk}^l的偏导数

\frac{\partial C}{\partial w_{jk}^l} =\frac{ \partial C}{ \partial z_j^l} \frac{\partial z_j^l}{\partial w_{jk}^l} = \delta_j^l \cdot a_k^{l-1}(BP4)

向量化:\frac{\partial C}{\partial w_{j\cdot }^l} =\begin{pmatrix}\delta_j^l  a_1^{l-1}  \\  \vdots \\  \delta_j^l  a_k^{l-1} \\\vdots\\\delta_j^l  a_n^{l-1}  \end{pmatrix}=\delta_j^l \cdot\begin{pmatrix}  a_1^{l-1}  \\  \vdots \\    a_k^{l-1} \\\vdots\\  a_n^{l-1}  \end{pmatrix}= \delta_j^l \cdot \bm a^{l-1}\Rightarrow

\frac{\partial C}{\partial w^l} = \begin{pmatrix}\delta^l_1 \cdot \bm a^{l-1} \\\vdots \\\delta^l_j \cdot \bm a^{l-1}\\\vdots\\\delta^l_n \cdot \bm a^{l-1}\\\end{pmatrix}= \begin{pmatrix}\delta^l_1   \\\vdots \\\delta^l_j \\\vdots\\\delta^l_n \\\end{pmatrix}\cdot \begin{pmatrix} a^{l-1}_1  \cdots a^{l-1}_k \cdots a^{l-1}_n  \end{pmatrix}= \bm \delta^l \cdot (\bm a^{l-1})^T

至此就得到了反向传播的4个公式:


图片来自:Neural networks and deep learning
反向传播算法流程:

流程图来自: Neural networks and deep learning

本文主要参考 Neural networks and deep learning,原作者写的也不错,不过个人觉得如果按照计算图会更加直观,基本不需要数学推导过程,用肉眼看图就可以理解反向传播的四个公式。当然前提是计算图要画的清晰明白。花了半天时间来写这篇文章,其中画图花费了80%的时间,尤其是计算图改了N次,仍然可能存在错误,欢迎指正~

点赞(分享)就是对文章作者的最大鼓励~

------下面只是备份下用过的公式,以备后面修改使用 ------------

a_j^L=\sigma(z_j^L)a_2^L=\sigma(z_2^L)z_j^L=\sum_{k=1}^{K}{(w_{jk}^L \cdot a_{k}^{L-1}) } +b_{j}^Lz_1^L=\sum_{k=1}^{4}{(w_{1k} \cdot a_k^{L-1}) } +b_{1}z_2^L=\sum_{k=1}^{4}{(w_{2k} \cdot a_k^{L-1}) } +b_{2}\frac{\partial a_j^L}{\partial z_j^L}  = \sigma^{'}(z_j^L)

\frac{\partial z_j^L}{\partial b_j^L} = 1\frac{\partial z_j^L}{\partial w_{jk}^L}  =a_k^{L-1}\frac{\partial z_2^L}{\partial a_{k}^{L-1}}  =w_{2k}^L


\frac{\partial a_k^{L-1}}{\partial z_k^{L-1}}  = \sigma^{'}(z_k^{L-1}) \frac{\partial z_k^{L-1}}{\partial b_k^{L-1}} = 1 \frac{\partial z_k^{L-1}}{\partial w_{km}^{L-1}}  =a_m^{L-2}

------------------------ 备份 end ----------------------------------------------