神经网络与深度学习（2）：梯度降低算法和随机梯度降低算法

时间 2019-12-12

标签神经网络深度学习梯度降低算法随机繁體版

原文原文链接

本文总结自《Neural Networks and Deep Learning》第1章的部份内容。算法

使用梯度降低算法进行学习（Learning with gradient descent）

咱们但愿有一个算法，能让咱们找到权重和偏置，以致于网络的输出y(x) 可以拟合全部的训练输入x。网络

定义一个Cost function (loss function, objective function): 目标函数，以下：

C: 被称为二次代价函数；有时也被称为均方偏差或者MSE

w: weight 权重

b: bias 偏向

n: 训练数据集实例个数

x: 输入值

a: 输出值 (当x是输入时)

||v||: 向量v的模

C(w,b) 越小越好，输出的预测值和真实值差异越小越好。

那么咱们的目标就转为：最小化C(w,b)。

咱们训练神经网络的目的是找到能最小化二次代价函数C(w; b) 的权重和偏置。

最小化问题能够用梯度降低解决（gradient descent)。函数

C(v) v有两个变量v1, v2，一般能够用微积分解决，若是v包含的变量过多，没法用微积分解决。学习

梯度降低算法工做的方式就是重复计算梯度∇C，而后沿着相反的方向移动，沿着山谷“滚落”。spa

即每降低到一个地方，就要计算下一步要往哪一个方向下去。blog

权重和偏置的更新规则：get

实际中使用梯度降低算法会使学习变得至关缓慢。这是由于：博客

对于每一个训练实例x, 都要计算梯度向量∇C。若是训练数据集过大，会花费很长时间，学习过程太慢。it

因此实际中使用随机梯度降低算法 (stochastic gradient descent)。

基本思想: 从全部训练实例中取一个小的采样(sample): X1,X2,…,Xm (mini-batch)，来估计 ∇C, 大大提升学习速度。

若是样本够大，

代入更新方程：

而后，从新选择一个mini-batch用来训练，直到用完全部的训练实例，一轮epoch完成。

做者：tsianlgeo

本文版权归做者和博客园共有，欢迎转载，未经赞成须保留此段声明，且在文章页面明显位置给出原文连接。欢迎指正与交流。