为何使用交叉熵做为损失函数?

若是归纳性地回答这个问题,咱们实际上是但愿获得最大似然(maximum likelihood),使得模型的预测分布与数据的实际分布尽量相近。而最大化log似然等同于最小化负log似然,最小化负log似然等价于最小化KL散度(相对熵),KL散度里包含有只与数据集相关而与模型无关的 l o g p ^ d a t a log\hat{p}_{data} logp^​data​,这一部分对每一个特定数据
相关文章
相关标签/搜索