又叫正态分布(Normal Distribution), 记做\(N(μ,σ^2)\),几率密度和为 1。面试
多元高斯分布(Multivariate Gaussian),假设 n 个变量 \(x=[x_1,x_2,⋯,x_n]^T\) 互不相关, 且服从正态分布,各个变量的均值 \(E(x)=[μ_1,μ_2,⋯,μ_n]^T\) ,标准误差为 \(σ(x)=[σ_1,σ_2,⋯,σ_n]^T\) ,根据联合几率密度公式:算法
化简为:网络
如,令\(z^2 = \frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}...+\frac{(x_n-\mu_n)^2}{\sigma_n^2}\) , \(\sigma_z = \sigma_1\sigma_2...\sigma_n\), 则函数
Maximum Likelihood Estimation 简称 MLE,又叫极大似然估计,是根据数据采样来估计几率分布的经典方法,事实上,几率模型的训练过程就是参数估计(parameter estimation)过程。post
首先,咱们声明一个假设 \(h \in H\) ,令 \(D_c\) 表示训练集 D 中第 c 类样本组成的集合,那么 \(P(D_c|h)\) 是在假设 h 的状况下,数据 \(D_c\) 产生的几率。则假设 h 对数据集 \(D_c\) 的似然是学习
对 h 进行最大似然估计,就是寻找能最大化似然\(P(D_c|h)\)的假设h。spa
在上式中,用到了连乘操做,咱们都知道连乘操做中,一旦数据过大会形成下溢,因此咱们一般使用对数似然(Log-Likelihood)公式来替代上面的连乘公式:3d
那么最大似然估计的目的就能够写为公式:orm
既然咱们已经了解了最大似然估计,知道它能够用来求参数值,那么咱们如今能够来求高斯分布的参数 \(\mu_c\) 和 \(\sigma_c^2\)的最大似然估计:blog
即,经过最大似然估计求得的正态分布均值就是样本均值,方差就是 \((x - \mu_c)(x - \mu)^T\) 的均值。
最小二乘法的推导:
交叉熵的推导:
Bayes' Law,又称贝叶斯定理(Bayes' theorem)或者贝叶斯规则(Bayes' rule)
公式:事件A发生的状况下事件B发生的几率:
一般用于已经观察到一个结果后,评估潜在的缘由的可能性,能够将上述公式写成:
也就是说贝叶斯推论是将后验几率推导为两个先验几率和似然函数的结果。
这里说的变种,主要是针对损失函数的变种,除了均方偏差和交叉熵,咱们还能够利用 Softmax 偏差(Softmax Error)。
Softmax一般用在处理多分类问题,经常使用于输出层,将输出转换成几率,输出总和为1。公式为:
偏差为:
其中 N 是输出层神经元的个数,P_i 是第 i 个神经元的输出。从公式中能够看出,Softmax函数的分子是输入信号 \(z_i\) 的指数函数,分母是全部输入信号的指数函数的和。
Conjugate gradients,是一种给迭代算法,在迭代中最终求得结果。
Natural gradients
Weight Decay,又叫L2正则化,主要用来抑制过拟合。众所周知,许多的过拟合现象是因为权重参数取值过大引发的。而权重衰退法经过对大的权重进行惩罚和抑制过拟合。假设损失函数利用平方损失函数(MSE),则引入 L2 正则化后的偏差公式为:
Momentum,这是一个从物理学中引伸出的概念。Momentum 的出现主要是为了解决随机梯度降低法(SGD)的缺点。
SGD的缺点:若是函数的形状非均向,梯度的方向没有指向最小值的方向,那么像SGD这种一直沿着梯度方向前进的算法就变得不那么高效,以下图,这是方程 \(f(x,y)=\frac{1}{20}x^2+y^2\) 的图像:
该方程的等高线是沿x轴方向延申的椭圆状。
该方程的梯度以下,y 轴方向上梯度大,x 轴方向上梯度小,从图中能够看出,虽然 \(f(x, y)\) 的最小值在 \((0, 0)\) 上,可是不少位置上的梯度方向没有指向 \((0,0)\) 点:
咱们应用一下SGD,能够看到路径如图所示,沿着“之”字型移动,效率很是的低。:
为了不 SGD 的这个缺点,咱们考虑利用动量方法来替代,Momentum适合用来处理高曲率、小但一致的梯度,或者带噪声的梯度,公式以下。
第一个公式表示了物体在梯度方向上的受力,在这个力的做用下,物体的速度增长这一个物理法则。若是咱们的梯度函数的刨面形状像一个水槽,权重更新的路径就会像一个小球在碗中运动同样。
出现这样的运动轨迹的缘由:动量的更新过程其实就是在减弱横向振动,并放大了向下运动。当连续的梯度指向相同的方向时,步长最大。即若是动量算法老是观察到梯度g,那么它会在方向-g上不停加速,直到达到最终速度,其中步长大小为(由\(v \leftarrow \alpha v - \eta \frac{\delta E}{\delta w}\)得来)
若是 \(\alpha\) = 0.9,\(1-\alpha\) = 0.1,带入上述公式,即动量中最大速度是SGD中的10倍,这个提高是显而易见的。
注:在实际应用中,\(\alpha\) 初始值通常设置的比较小如0.5,0.9,0.99,而后逐渐增大,可是 \(\alpha\) 的调整没有 \(\eta\) 的调整重要。