熵、交叉熵和KL散度的基本概念和交叉熵损失函数的通俗介绍

时间 2021-02-01

标签框架函数学习编码 spa 3d orm blog 事件 get 栏目字符编码繁體版

原文原文链接

让咱们试着去理解最普遍使用的损失函数-交叉熵。框架

交叉熵（也称为对数损失）是分类问题中最经常使用的损失函数之一。可是，因为当今庞大的库和框架的存在以及它们的易用性，咱们中的大多数人经常在不了解熵的核心概念的状况下着手解决问题。因此，在这篇文章中，让咱们看看熵背后的基本概念，把它与交叉熵和KL散度联系起来。咱们还将查看一个使用损失函数做为交叉熵的分类问题的示例。函数

什么是熵？

为了开始了解熵到底指的是什么，让咱们深刻了解信息理论的一些基础知识。在这个数字时代，信息是由位（0和1）组成的。在通讯时，有些位是有用的，有些是多余的，有些是错误的，等等。当咱们传递信息时，咱们但愿尽量多地向接收者传递有用的信息。学习

在Claude Shannon的论文“通讯数学理论（1948）”中，他指出传输1位信息意味着将接收者的不肯定性下降2倍。编码

让咱们看看他是什么意思。例如，假设一个地方的天气是随机的，天天都有50-50个晴天或下雨的机会。 spa

如今，若是一个气象站告诉你明天会下雨，那么他们已经把你的不肯定性下降了2倍。起初，有两种可能性相同，但在收到气象站的最新消息后，咱们只有一种可能性。在这里，气象台给咱们发送了一点有用的信息，无论他们如何编码这些信息，这都是真的。3d

即便发送的消息是“未雨绸缪”的，每一个字符占用一个字节，消息的总大小对应40位，但它们仍然只传递1位有用信息。orm

假设天气有8种可能的状态，全部的可能性都同样。 blog

如今，当气象台给你次日的天气时，他们会把你的不肯定性下降8倍。因为每一个事件都有1/8的机会发生，所以折减系数为8。事件

但若是可能性不同呢？好比说，75%的概率是晴天，25%的概率是雨天。 get

如今，若是气象台说次日会下雨，那么你的不肯定性就下降了4倍，这是2位信息。不肯定性的下降只是事件几率的倒数。在这种状况下，25%的反比是4，对数（4）到基2等于2。因此，咱们获得了2位有用的信息。

若是气象台说次日会是晴天，那么咱们就能获得0.41位有用的信息。那么，咱们平均要从气象站获得多少信息呢？

好吧，有75%的可能性明天会是晴天，这给了你0.41比特的信息，25%的可能性明天会下雨，这给了你2比特的信息，这至关于，

咱们平均天天从气象站获得0.81位信息。因此，咱们刚才计算的是熵。这是一个很好的衡量事件有多不肯定的指标。它是由，

熵的方程如今彻底有意义了。它测量你天天学习天气时获得的平均信息量。通常来讲，它给出了咱们从一个给定几率分布的样本中获得的平均信息量，它告诉咱们几率分布是多么不可预测。

若是咱们生活在一个天天都是晴天的沙漠中间，平均来讲，咱们天天从气象站得不到多少信息。熵将接近于零。另外一方面，若是天气变化很大，熵就会大得多。

交叉熵

如今，咱们来谈谈交叉熵。它只是平均消息长度。考虑到8种可能的天气条件的相同示例，全部这些条件都一样可能，每一个条件均可以使用3位编码。

这里的平均消息长度是3，这就是交叉熵。但如今，假设你生活在一个阳光充足的地区，那里的天气几率分布以下：

天天有35%的可能性是晴天，只有1%的可能性是雷雨。因此，咱们能够计算这个几率分布的熵，

Entropy = -(0.35 * log(0.35) + 0.35 * log(0.35) + 0.1 * log(0.1) + 0.1 * log(0.1) + 0.04 * log(0.04) + 0.04 * log(0.04) + 0.01 * log(0.01) + 0.01 * log(0.01))

Entropy = 2.23 bits

注意，这里使用的二元的记录。

因此，平均来讲，气象台发送3位，但收信人只能获得2.23个有用的位。咱们能够作得更好。

例如，让咱们这样更改代码：