深度学习基础系列（四）| 理解softmax函数

时间 2019-11-25

标签深度学习基础系列理解 softmax 函数繁體版

原文原文链接

　　深度学习最终目的表现为解决分类或回归问题。在现实应用中，输出层咱们大多采用softmax或sigmoid函数来输出分类几率值，其中二元分类能够应用sigmoid函数。函数

　　而在多元分类的问题中，咱们默认采用softmax函数，具体表现为将多个神经元的输出，映射到0 ~ 1的区间中，按几率高低进行分类，各几率之和为1。学习

　　某分类的几率数学表达式为：y_i= eⁱ/ ∑_j=1e^j spa

　　具体来讲，假设有四个输出单元，分别为：深度学习

　　能够看出 y₁ + y₂+ y₃+ y₄ = 1。而且其中某神经元的输出若增长，则其余神经元的输出则减小，反之也成立。数学

　　最后再看看softmax函数如何求导，令y = e^xⁱ/ ∑e^xk ，分两种状况：基础

　　1. i为softmax值，咱们对e^xi求导，

　　与此相关的基础求导公式：(u/v)^'= (u^'v - uv^') / v² 和 (e^x)^'= e^x，并应用链式法则可得求导过程：

　　　dy/de^xi= ( e^xⁱ/ ∑e^xk)^'

　　　　　　 = (e^xi* ∑e^xk - e^xi* e^xi) / (∑e^xk)²

　　　　　　 = e^xⁱ/ ∑e^xk - (e^xⁱ/ ∑e^xk) * (e^xⁱ/ ∑e^xk)

　　　　　　 = y_xi - y_xi²

　　2. i不为softmax值，咱们依然对e^xi求导，其过程为：

　　　dy/de^xi= ( e^x^j/ ∑e^xk)^' 注：i ≠ j

　　　　　　 = (0 * ∑e^xk- e^xj* e^xi) / (∑e^xk)²

　　　　　　 = -1 * (e^xⁱ/ ∑e^xk) * (e^xj/ ∑e^xk)

　　　　　　 = - y_xi* y_xj