最小值的最优化问题

时间 2019-12-09

标签最小值最优化问题繁體版

原文原文链接

无约束极小值的最优化条件：算法

关于多元函数极小值点的必要条件：网络

知足的点称之为f(x)的驻点或稳定点，可是反过来，知足梯度条件的点不必定是f(x)的局部极小值。所以，定理转化为求解下面的方程组问题：机器学习

　　对于上面的线性方程组，利用解析法（如高斯消元法、矩阵三角分解法等）能够较方便求解，可是遗憾的是，f(x)通常是很复杂的非线性函数，求解非线性方程组并不比求解最优化问题简单，甚至比求解最优化问题更困难、更复杂。所以，在机器学习领域，求解最优化问题，通常不会经过解析法来求解上式，而是经过数值计算方法来直接求取函数极值。函数

　　迭代法是数值计算最经常使用的最优化方法，它的基本思想是：首先给定f(x)的一个极小值点获得初始估计x⁰，而后经过迭代的方式获得点序列{x^t},若是这个点序列的极限x*逼近极小值点，那么成这个序列为极小化序列。这个极小化序列经过迭代公式能够写成：学习

　　其中d是一个方向向量，λ称为步长（或学习率），当λ和d都被肯定后，也就能够惟一肯定点下一个点x^k+1，并以此迭代，最后求得极小值点。优化

　　注意：各类迭代算法的区别就在于获得步长λ和方向d的方式不一样。一个好的迭代算法应知足的两个条件：递减性和收敛性。spa

梯度降低：3d

　　梯度降低是神经网络最经常使用的优化方法之一。它的方向就是f在该点x⁰处函数值增加最快的方向。基于梯度的这个性质，若是把迭代的每一步沿着当前点的梯度方向的反方向进行迭代，那么就能获得一个逐步递减的极小化序列。blog

　　根据每一次迭代所使用的训练数据集范围不一样，能够把梯度降低算法区分为：io

　　批量梯度降低：也称之为最速降低法，偏差损失函数有全量训练数据个人偏差构成，所以，当数据量很大的时候，速度会很是慢，同时，它不能以在线的方式更新模型，也就是，当训练数据有新元素加入时，须要对全量的数据进行更新，效率很低。所以当前的梯度降低法通常都不会采用这个策略。
随机梯度降低：随机梯度降低是对批量梯度降低的改进，该算法每一次更新，只考虑一个样本数据的偏差损失，所以，它的速度要远远优于批量梯度降低。更主要的是，它能进行在线的参数更新。可是缺点是：因为单个样本会出现类似或重复的状况，数据的更新会出现冗余，此外，单个数据之间的差别会比较大，形成每一次迭代的损失函数会出现比较大的波动。
小批量梯度降低：该算法结合了前二者的优势，克服了它们的缺点。其策略是指每次的参数更新，优化的目标函数是由n个样本数据构成，n的值通常较小，通常取到10到500之间，这种作法有3个优势：

　　　　1. 每一批的数据量较小，特别适合高效的矩阵运算，尤为是GPU的并行加速，所以虽然小批量梯度算法的训练数据要比随机梯度降低算法多，但效率上与随机梯度算法差异不大。

　　　　2. 与随机梯度降低算法相比，小批量梯度算法每一批考虑了更多的样本数据，每一批数据之间的总体差别更小、更平均，结果也更稳定。

　　　　3. 因为效率与随机梯度降低算法至关，所以小批量梯度策略一样适用于在线的模型更新。

　　通常来讲，当前的梯度降低算法广泛采用第三个---小批量梯度算法策略。

　　梯度降低中用于肯定步长和方向向量的几个不一样算法的策略：

　　　　　　1. 传统更新策略：vanilla策略，最简单的参数更新策略，参数沿着其梯度反方向变化。lr是学习率，预先设置的固定值超参数。

　　　　　　2. 动量更新策略：

　　　　　　3. 改进的动量更新策略：

　　　　　4. 自适应梯度策略：以上方法都是对迭代方法的优化，而步长是固定的，该策略考虑学习率对着迭代次数变化而变化的自适应梯度策略。