为什么使用交叉熵作为损失函数?

如果概括性地回答这个问题,我们其实是希望得到最大似然(maximum likelihood),使得模型的预测分布与数据的实际分布尽可能相近。而最大化log似然等同于最小化负log似然,最小化负log似然等价于最小化KL散度(相对熵),KL散度里包含有只与数据集相关而与模型无关的 l o g p ^ d a t a log\hat{p}_{data} logp^​data​,这一部分对每个特定数据集
相关文章
相关标签/搜索