深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

你们好,继续理论学习,在我当年的一篇讲softmax和LR回归的博客里机器学习

就是这篇博客!学习

还有这篇!测试

在里面只是简单地讲了交叉熵的公式,可是为何深度学习当时要取最小的交叉熵来优化参数,其实我没太明白,今天搞明白了,来记录一下。优化

1.信息量.net

信息量的大小能够衡量事件的不肯定性或发生的惊讶程度。一个事件发生的几率越小则其所含的信息量越大。设事件发生的几率为P(x),则其信息量表示为:3d

2.信息熵blog

对于一个随机变量x而言,它的全部可能取值的信息量的指望就称为信息熵,知道是指望咱们就能够写出下列表达式:事件

3.交叉熵get

如今有样本集的两种几率分布p和q,其中p是样本的真实分布,q为非真实分布(在深度学习中能够看作是预测分布),若是咱们要用非真实分布q来预测样本(对应于获得训练完的样原本进行测试),则是基于分布q的信息量的指望,因为样原本自于分布p,所以指望与真实分布一致,因此基于q的样本预测公式为:深度学习

上式便是交叉熵的表达式。

4.相对熵

将用非真实分布q预测样本与用真实分布p预测样本的差值成为相对熵,又称为KL散度。

5.上述概念在机器学习中的应用

机器学习的目的就是使q(x)更加接近p(x),所以咱们天然而然想到就是要求相对熵的最小值。而相对熵公式中的后一项因为p(x)的分布是肯定的,所以能够说是常数,这样就变成了咱们熟悉的,要求交叉熵的最小值,也即求最大似然估计。

感受把以前零散学习的知识点串起来了,感受颇有收获,但愿也能帮到你们,咱们下期见!