Negative log-likelihood function

Softmax function

Softmax 函数 \(y=[y_1,\cdots,y_m]\) 定义以下:
\[y_i=\frac{exp(z_i)}{\sum\limits_{j=1}^m{exp(z_j)}}, i=1,2,\cdots,m\]函数

它具备很好的求导性质:
\[\frac{\partial y_i}{\partial z_i}=y_i* (1-y_i)\]优化

其中,\(y\)的每个维度 \(y_i\) 代表,属于第 \(i\) 类的几率。求导过程,请参考:Softmax vs. Softmax-Loss: Numerical Stabilityspa

Negative log-likehood

当咱们使用softmax 函数做为 output function的时候,即:
\[y=softmax(z)\]
\(z\) 在这里只表示某些须要优化的参数。it

咱们须要选择 negiative log-likelihood 做为代价函数( cost function), 也被称做 Cross-Entropy cost function. 即:
\[ E(t,y)= -\sum\limits_i {t_i \log y_i} \]io

\(t\)表示的是 tagert, \(y\) 表示的是model's prediction. 一般,\(t\) 表示的是 one-hot representation, \(y\) 表示的是各种的 predicted probability.function

Note

若是 \(t\) 采用的是 one-hot representation, 那么咱们的计算公式是:
\[ E(t,y)= -t \log y\]class

若是 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话,计算公式:
\[ E(t,y)= - \log y [t]\]model

它的求导公式也很简单:
\[\frac{\partial E(t,y)}{\partial z_i}= \sum\limits_j {\frac{\partial E(t,y)}{\partial y_i}\frac{\partial y_j}{\partial z_j}}= y_i -t_i\]im

Note

若是 \(t\) 采用的是 one-hot representation, 那么咱们的计算公式是:
\[ \frac{\partial E(t,y)}{\partial z}= y -z\]dict

若是 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话,计算公式:
\[y[t]-=1\]
\[ \frac{\partial E(t,y)}{\partial z} := y\]

相关文章
相关标签/搜索