Softmax 函数 \(y=[y_1,\cdots,y_m]\) 定义以下:
\[y_i=\frac{exp(z_i)}{\sum\limits_{j=1}^m{exp(z_j)}}, i=1,2,\cdots,m\]函数
它具备很好的求导性质:
\[\frac{\partial y_i}{\partial z_i}=y_i* (1-y_i)\]优化
其中,\(y\)的每个维度 \(y_i\) 代表,属于第 \(i\) 类的几率。求导过程,请参考:Softmax vs. Softmax-Loss: Numerical Stabilityspa
当咱们使用softmax 函数做为 output function的时候,即:
\[y=softmax(z)\]
\(z\) 在这里只表示某些须要优化的参数。it
咱们须要选择 negiative log-likelihood 做为代价函数( cost function), 也被称做 Cross-Entropy cost function. 即:
\[ E(t,y)= -\sum\limits_i {t_i \log y_i} \]io
\(t\)表示的是 tagert, \(y\) 表示的是model's prediction. 一般,\(t\) 表示的是 one-hot representation, \(y\) 表示的是各种的 predicted probability.function
若是 \(t\) 采用的是 one-hot representation, 那么咱们的计算公式是:
\[ E(t,y)= -t \log y\]class
若是 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话,计算公式:
\[ E(t,y)= - \log y [t]\]model
它的求导公式也很简单:
\[\frac{\partial E(t,y)}{\partial z_i}= \sum\limits_j {\frac{\partial E(t,y)}{\partial y_i}\frac{\partial y_j}{\partial z_j}}= y_i -t_i\]im
若是 \(t\) 采用的是 one-hot representation, 那么咱们的计算公式是:
\[ \frac{\partial E(t,y)}{\partial z}= y -z\]dict
若是 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话,计算公式:
\[y[t]-=1\]
\[ \frac{\partial E(t,y)}{\partial z} := y\]