Negative log-likelihood function

时间 2019-11-29

标签 negative log likelihood function 繁體版

原文原文链接

Softmax function

Softmax 函数 \(y=[y_1,\cdots,y_m]\) 定义以下：
\[y_i=\frac{exp(z_i)}{\sum\limits_{j=1}^m{exp(z_j)}}, i=1,2,\cdots,m\]函数

它具备很好的求导性质：
\[\frac{\partial y_i}{\partial z_i}=y_i* (1-y_i)\]优化

其中，\(y\)的每个维度 \(y_i\) 代表，属于第 \(i\) 类的几率。求导过程，请参考：Softmax vs. Softmax-Loss: Numerical Stabilityspa

Negative log-likehood

当咱们使用softmax 函数做为 output function的时候，即：
\[y=softmax(z)\]
\(z\) 在这里只表示某些须要优化的参数。it

咱们须要选择 negiative log-likelihood 做为代价函数( cost function), 也被称做 Cross-Entropy cost function. 即：
\[ E(t,y)= -\sum\limits_i {t_i \log y_i} \]io

\(t\)表示的是 tagert, \(y\) 表示的是model's prediction. 一般，\(t\) 表示的是 one-hot representation, \(y\) 表示的是各种的 predicted probability.function

Note

若是 \(t\) 采用的是 one-hot representation, 那么咱们的计算公式是:
\[ E(t,y)= -t \log y\]class

若是 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话，计算公式：
\[ E(t,y)= - \log y [t]\]model

它的求导公式也很简单:
\[\frac{\partial E(t,y)}{\partial z_i}= \sum\limits_j {\frac{\partial E(t,y)}{\partial y_i}\frac{\partial y_j}{\partial z_j}}= y_i -t_i\]im

Note

若是 \(t\) 采用的是 one-hot representation, 那么咱们的计算公式是:
\[ \frac{\partial E(t,y)}{\partial z}= y -z\]dict

若是 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话，计算公式：
\[y[t]-=1\]
\[ \frac{\partial E(t,y)}{\partial z} := y\]