当在现实生活中的遇到问题时,咱们老是但愿找到最佳的解决方案。制造软件产品也是同样的道理,最优化的程序才是最理想的产品。python
最优化意味着得到最佳输出。它既是一个数学的重要分支,也在现实生活中有着重要的做用。现代的计算机科学和人工智能科学把最优化做为一个重要的领域来研究。咱们也认为人工智能的一些算法,就是模拟了人类寻求实际问题最优解的过程。例如,利用人工智能算法设计软件,配合外部的电子设备例如摄像头识别人脸;利用数据挖掘和神经网络算法来寻找投资的最佳时机等等,都是利用了最优化的原理。算法
机器学习中的最优化和其余学科的应用比起来有轻微的差别。通常来讲,在优化的同时,咱们确切地知道数据的外观以及咱们想要改进的地方。 可是在机器学习中,咱们不知道“新数据”是怎么样的,更别提对其进行优化了。为了解决这个问题,在机器学习中,咱们对训练数据(training data)执行优化,并检查由此新创造出的验证数据(validation data)。bash
最优化的普遍应用网络
许多流行的机器算法都依赖于线性回归,k最近邻,神经网络等技术。优化的应用是无限的,所以它成为了学术界和工业界普遍研究的课题。在本文中,咱们将介绍一种称为梯度降低(Gradient Descent)的优化技术。 这是机器学习时最经常使用的优化技术。app
1.什么是梯度降低?机器学习
咱们来看一下经典的爬山示例:假设你在山顶,你必须到达山谷最低点的一个湖。 可是你被蒙住眼睛,看不到你的目标。 那么,你会采起什么方法到达湖边?函数
最简单的方法是检查你附近的地面,找到土地向下倾斜的方向。 这是你该迈出第一步的方向。 沿着下坡路线一直走,颇有可能你会到达湖泊。下图表示你走过的路:
学习
如今咱们来用数学术语来描述一下这个场景。
测试
假设咱们想要找出学习算法的最佳参数(θ0)和(θ1)。与上面的爬山示例相似,当咱们绘制成本空间J(θ)函数的3D图像时发现了相似的山脉和山谷。当z轴表明成本J(θ),x轴和z轴分别对应参数θ0和θ1时,丘陵由红色地区表明成本高,而山谷以蓝色地区表明成本低。成本空间不过是算法在某个参数选择特定值时的表现。优化
如今主要有两种类型的梯度降低算法:
1.1 数据摄入基准法
全批梯度降低算法一次使用全部数据来计算梯度,而随机梯度降低算法能够在计算梯度时进行采样。
1.2 分化技巧基准法
梯度降低须要经过成本函数J(θ)的微分方程来计算梯度。咱们可使用一阶微分或二阶微分。
2.执行梯度降低法所面临的挑战
梯度降低是一种适用于大多数状况的技术。但也有时候梯度降低也不能正常工做,或彻底不能工做。发生这种状况时有三个主要缘由:
2.1 来自数据的挑战
2.2 来自梯度的挑战
2.3 来自实际应用难度的挑战
3.梯度降低算法的变体
最经常使用的梯度降低算法及其实施。
3.1 Vanilla(香草)梯度降低法
这是梯度降低技术的最简单形式。香草意味着纯粹/没有任何掺假。其主要特色是经过采用成本函数的梯度向最小值方向不断迈出小步。它的伪代码以下:
update = learning_rate * gradient_of_parameters
parameters = parameters - update复制代码
咱们经过获取旧参数的梯度来不断更新参数。把它乘以一个学习速率(learning_rate,一个常数),代表咱们想要达到最低点的速度。学习速率是一个超参数(hyper-parameter),在选择它的大小时应该十分当心谨慎。
3.2动量梯度降低(Gradient Descent with Momentum)
经过调整Vanilla算法,能够在每次进行下一步以前注意前一步骤。
update = learning_rate * gradient
velocity = previous_update * momentum
parameter = parameter + velocity – update
复制代码
在这里,update与香草梯度降低法相同。 可是引入了一个名为velocity的新术语,它考虑了以前的update和一个称为momentum的常量。
3.3 Adagrad
Adagrad使用自适应技术进行学习速率的更新。 这个算法根据之前全部迭代的梯度变化状况来改变学习速率。伪代码以下:
grad_component = previous_grad_component + (gradient * gradient)
rate_change = square_root(grad_component)+epsilon
adapted_learning_rate = learning_rate * rate_change
update = adapted_learning_rate * gradient
parameter = parameter – update
复制代码
其中,epsilon是一个常量,用于保持学习速率的变化率。
3.4 Adam
Adam是一种基于Adagrad的自适应技术,进一步缓解了它的不足。 换句话说,它就是 Momentum + Adagrad。伪代码以下:
adapted_gradient = previous_gradient +
((gradient – previous_gradient) * (1 – beta1))
gradient_component = (gradient_change – previous_learning_rate)
adapted_learning_rate = previous_learning_rate +
(gradient_component * (1 – beta2))
update = adapted_learning_rate * adapted_gradient
parameter = parameter – update
复制代码
其中,beta1和beta2是常量,用于检查梯度和学习速率的变化。
4.梯度降低算法的实际应用
使用python进行梯度降低的基本应用。
接下来咱们使用梯度降低优化来找到深度学习模型的最佳参数,并将其用于图像识别问题。 咱们的问题是:识别来自给定的28×28图像里的数字。准备的图片中,有一部分图像用于训练,其他部分用于测试模型。
以下是定义Vanilla梯度降低的主要代码:
params = [weights_hidden, weights_output, bias_hidden, bias_output]
def sgd(cost, params, lr=0.05):
grads = T.grad(cost=cost, wrt=params)
updates = []
for p, g in zip(params, grads):
updates.append([p, p - g * lr])
return updates
updates = sgd(cost, params)
复制代码
咱们来拆分理解一下这段代码。定义函数sgd做为cost,params和lr的因变量,它和如前所述的J(θ)同出一辙;而以前的θ0,θ1在这里是深度学习算法的参数和学习速率。 咱们将默认学习速率设置为0.05,但该值可随时被更改。
def sgd(cost, params, lr=0.05):
复制代码
而后咱们定义了关于成本函数J(θ)的参数的梯度。 在这里,咱们使用theano库来找到相应梯度,而且咱们将theano做为T导入
grads = T.grad(cost=cost, wrt=params)
复制代码
最后把全部可能的参数更新,这里应使用Vanilla梯度降低。
for p, g in zip(params, grads):
updates.append([p, p - g * lr]
复制代码
咱们可使用这个函数来为神经网络找到最佳参数。 在使用这个函数时,该神经网络出色地完成了任务,以下所示:
Prediction is: 8
复制代码
在这个应用中,梯度降低法为深度学习算法找到了最优参数。
5.应用梯度降低的实用技巧
上面提到的每一个梯度降低算法都有其优势和缺点。下面的一些小提示可能会帮助您选择正确的算法。
神经网络没法成功学习的缘由有不少。可是若是能够找到算法出错的地方,对将来的工做仍是很是有帮助的。
在应用梯度降低法时,有如下几点常见注意事项:
但愿您阅读本文后,将熟练掌握有关梯度降低及其变体的基础知识。但愿你以为我对这些算法的实际应用的解读也有所帮助!