北大旁听 - 深刻Loss Function的来源

时间 2019-11-10

标签北大旁听深刻 loss function 来源繁體版

原文原文链接

1. 想法

因为有朋友在北大，很高兴能蹭到深度学习的课程，李戈教授的课程十分精彩，比起只会念PPT的老师，他的教学就像在堆积知识的金字塔。算法

2. Loss Function

2.1 经典统计 vs 深度学习 vs 贝叶斯统计

几率论分为两大学派，贝叶斯学派认为先验知识很重要，而经典统计学派就是纯粹的看统计信息。网络

如今的深度学习最大的优势就是在数据拟合上表现很是好，但最大的缺点就是它的不可解释性。session

在一篇论文：Deep Learning: A Bayesian Perspective 中提到，目前深度学习算法取得好效果的主要缘由归功于ReLU、learning_rate、Dropout。app

实际上先验知识只是以网络的模型结构的方式呈现的（包括Loss Function的设计等）。ide

2.2 最大似然估计

其实目前大部分使用的损失函数都是以最大似然原理为核心而设计的。函数

深度学习的核心问题就是让网络产生的数据分布尽量贴近样本分布，因此极大似然原理就很天然的用在了深度学习上。学习

而要评判分布的“差异”，首先须要能够评判分布的指标，而这个指标就是香农的信息熵。spa

有了评价指标后，咱们还不急着对比，由于要计算信息熵，须要知道样本的真实分布和几率密度。在计算模型分布的信息熵时，此时就不叫信息熵了，而称为交叉熵，这也就是所谓的cross-entropy（而不是你们常见的1-log(x)）。设计

Many authors use the term "cross-entropy" to identify specifically the negative log-likelihood of a Bernoulli or softmax distribution, but that is a misnomer.

根据Gibbs不等式，有：E(P, Q) >= E(P)，其实很好解释，用模拟出来的几率密度去计算真实分布的信息熵，确定是比较混乱的（相对于真实几率密度计算真实分布的信息熵）。3d

有了交叉熵和原分布的信息熵后，咱们作差，就能获得相对熵（又称KL散度）。

终于，咱们获得了相对熵，能够评判分布的“差异”后，咱们就能够用一个视角来看Loss Function：

Loss Function 用于计算模型输出数据与样本数据之间的“差异”。
Loss Function 体现了人们对这种“差异”进行度量时所依赖的先验知识。
几种常见的“差异”度量方法
- 个体模型结果与样本数据之间的“距离”。
- 多个模型结果与样本数据之间存在数据分布上的差异。
- 经过分析"统计距离“（Statistical Distance）来设计Loss。

好了，让咱们回到最大似然原理上，为了让模型分布尽量贴近样本分布，那么咱们要解决的问题就是最小化KL散度