【转载】深度学习中softmax交叉熵损失函数的理解

时间 2019-11-09

标签转载深度学习 softmax 交叉损失函数理解繁體版

原文原文链接

深度学习中softmax交叉熵损失函数的理解

2018-08-11 23:49:43 lilong117194 阅读数 5198更多

分类专栏： Deep learning

本文连接： https://blog.csdn.net/lilong117194/article/details/81542667

1. softmax层的做用

经过神经网络解决多分类问题时，最经常使用的一种方式就是在最后一层设置n个输出节点，不管在浅层神经网络仍是在CNN中都是如此，好比，在AlexNet中最后的输出层有1000个节点，即使是ResNet取消了全链接层，但1000个节点的输出层还在。git

通常状况下，最后一个输出层的节点个数与分类任务的目标数相等。
假设最后的节点数为N，那么对于每个样例，神经网络能够获得一个N维的数组做为输出结果，数组中每个维度会对应一个类别。在最理想的状况下，若是一个样本属于k，那么这个类别所对应的的输出节点的输出值应该为1，而其余节点的输出都为0，即 $[0, 0, 1, 0, \dots .0, 0]$ 数组

y' = s o f t m a x (y i) = e y i \sum n j = 1 e y

以上能够看出：

\sum y^{'} = 1

2. 交叉熵损失函数的数学原理

上面说过实际的指望输出，也就是标签是 $[0, 0, 1, 0, \dots .0, 0]$ markdown

交叉熵刻画的是实际输出（几率）与指望输出（几率）的距离，也就是交叉熵的值越小，两个几率分布就越接近。假设几率分布p为指望输出(标签)，几率分布q为实际输出，H(p,q)为交叉熵。网络

第一种交叉熵损失函数的形式：
$H (p, q) = - \sum x p (x) l o g q (x)$

举个例子：
假设N=3，指望输出为p=(1,0,0)，实际输出 $q_{1} = (0.5, 0.2, 0.3) ， q_{2} = (0.8, 0.1, 0.1)$ session

第二种交叉熵损失函数形式：
$H (p, q) = - \sum x (p (x) l o g q (x) + (1 - p (x)) l o g (1 - q (x)))$
下面简单推到其过程：
咱们知道，在二分类问题模型：例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后一般会通过一个 Sigmoid 函数，输出一个几率值，这个几率值反映了预测为正类的可能性：几率越大，可能性越大。
Sigmoid 函数的表达式和图形以下所示： $g (s) = \frac{1}{1 + e^{- s}}$

而在实际的使用训练过程当中，数据每每是组合成为一个batch来使用，因此对用的神经网络的输出应该是一个m*n的二维矩阵，其中m为batch的个数，n为分类数目，而对应的Label也是一个二维矩阵，仍是拿上面的数据，组合成一个batch=2的矩阵函数

q = [0.5 0.8 0.2 0.1 0.3 0.1]

\sum y^{'} = 1

p = [1 1 0 0 0 0]

\sum y^{'} = 1

H (p, q) = [0.3 0.1]

\sum y^{'} = 1

3. 在TensorFlow中实现交叉熵

在TensorFlow能够采用这种形式：学习

cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y, 1e-10, 1.0)))

其中y_表示指望的输出，y表示实际的输出（几率值），*为矩阵元素间相乘，而不是矩阵乘。
而且经过tf.clip_by_value函数能够将一个张量中的数值限制在一个范围以内，这样能够避免一些运算错误（好比log0是无效的），tf.clip_by_value函数是为了限制输出的大小，为了不log0为负无穷的状况，将输出的值限定在(1e-10, 1.0)之间，其实1.0的限制是没有意义的，由于几率怎么会超过1呢。好比：优化

import tensorflow as tf

v=tf.constant([[1.0,2.0,3.0],[4.0,5.0,6.0]]) with tf.Session() as sess: print(tf.clip_by_value(v,2.5,4.5).eval(session=sess))

结果：ui

[[2.5 2.5 3. ] [4. 4.5 4.5]]

上述代码实现了第一种形式的交叉熵计算，须要说明的是，计算的过程其实和上面提到的公式有些区别，按照上面的步骤，平均交叉熵应该是先计算batch中每个样本的交叉熵后取平均计算获得的，而利用tf.reduce_mean函数其实计算的是整个矩阵的平均值，这样作的结果会有差别，可是并不改变实际意义。atom

import tensorflow as tf

v=tf.constant([[1.0,2.0,3.0],[4.0,5.0,6.0]]) with tf.Session() as sess: # 输出3.5 print(tf.reduce_mean(v).eval())

因为在神经网络中，交叉熵经常与Sorfmax函数组合使用，因此TensorFlow对其进行了封装，即：

cross_entropy = tf.nn.sorfmax_cross_entropy_with_logits(y_ ,y)

与第一个代码的区别在于，这里的y用神经网络最后一层的原始输出就行了,而不是通过softmax层的几率值。

参考：http://www.javashuo.com/article/p-qrfavtho-ev.html
https://blog.csdn.net/chaipp0607/article/details/73392175