零基础入门深度学习(2) - 线性单元和梯度降低

时间 2019-12-09

原文原文链接

往期回顾

在上一篇文章中，咱们已经学会了编写一个简单的感知器，并用它来实现一个线性分类器。你应该还记得用来训练感知器的『感知器规则』。然而，咱们并无关心这个规则是怎么获得的。本文经过介绍另一种『感知器』，也就是『线性单元』，来讲明关于机器学习一些基本的概念，好比模型、目标函数、优化算法等等。这些概念对于全部的机器学习算法来讲都是通用的，掌握了这些概念，就掌握了机器学习的基本套路。python

线性单元是啥

感知器有一个问题，当面对的数据集不是线性可分的时候，『感知器规则』可能没法收敛，这意味着咱们永远也没法完成一个感知器的训练。为了解决这个问题，咱们使用一个可导的线性函数来替代感知器的阶跃函数，这种感知器就叫作线性单元。线性单元在面对线性不可分的数据集时，会收敛到一个最佳的近似上。git

为了简单起见，咱们能够设置线性单元的激活函数程序员

这样的线性单元以下图所示github

对比此前咱们讲过的感知器算法

这样替换了激活函数编程

线性单元的模型

当咱们说模型时，咱们实际上在谈论根据输入网络

函数python2.7

元

你也许会说，这个模型太不靠谱了。是这样的，由于咱们考虑的因素太少了，仅仅包含了工做年限。若是考虑更多的因素，好比所处的行业、公司、职级等等，可能预测就会靠谱的多。咱们把工做年限、行业、公司、职级这些信息，称之为特征。对于一个工做了5年，在IT行业，百度工做，职级T6这样的人，咱们能够用这样的一个特征向量来表示他机器学习

ide

既然输入

其中，

为了书写和计算方便，咱们能够令

其中

这样上面的式子就能够写成

咱们还能够把上式写成向量的形式

式

长成这种样子模型就叫作线性模型，由于输出

监督学习和无监督学习

接下来，咱们须要关心的是这个模型如何训练，也就是参数

机器学习有一类学习方法叫作监督学习，它是说为了训练一个模型，咱们要提供这样一堆训练样本：每一个训练样本既包括输入特征

另一类学习方法叫作无监督学习，这种方法的训练样本中只有

不少时候，既有

线性单元的目标函数

如今，让咱们只考虑监督学习。

在监督学习下，对于一个样本，咱们知道它的特征

数学上有不少方法来表示的

咱们把

训练数据中会有不少样本，好比

上式的

咱们还能够把上面的式子写成和式的形式。使用和式，不光书写起来简单，逼格也跟着暴涨，一箭双雕。因此必定要写成下面这样

式

其中

(式2)中，

咱们固然但愿对于一个训练数据集来讲，偏差最小越好，也就是(式2)的值越小越好。对于特定的训练数据集来讲，

因而可知，模型的训练，实际上就是求取到合适的

梯度降低优化算法

大学时咱们学过怎样求函数的极值。函数

不过对于计算机来讲，它可不会解方程。可是它能够凭借强大的计算能力，一步一步的去把函数的极值点『试』出来。以下图所示：

首先，咱们随便选择一个点开始，好比上图的

你可能要问了，为啥每次修改

按照上面的讨论，咱们就能够写出梯度降低算法的公式

其中，

对于上一节列出的目标函数(式2)

梯度降低算法能够写成

聪明的你应该能想到，若是要求目标函数的最大值，那么咱们就应该用梯度上升算法，它的参数修改规则是

下面，请先作几回深呼吸，让你的大脑补充足够的新鲜的氧气，咱们要来求取

关于

所以，线性单元的参数修改规则最后是这个样子

式

有了上面这个式子，咱们就能够根据它来写出训练线性单元的代码了。

须要说明的是，若是每一个样本有M个特征，则上式中的

为了让您看明白说的是啥，我吐血写下下面这个解释(写这种公式可累可累了)。由于

若是您仍是没看明白，建议您也吐血再看一下大学时学过的《线性代数》吧。

这一节你尽能够跳过它，并不太会影响到全文的理解。固然若是你非要弄明白每一个细节，那恭喜你骚年，机器学习的将来必定是属于你的。

首先，咱们先作一个简单的前戏。咱们知道函数的梯度的定义就是它相对于各个变量的偏导数，因此咱们写下下面的式子

可接下来怎么办呢？咱们知道和的导数等于导数的和，因此咱们能够先把求和符号

如今咱们能够无论高大上的

咱们知道，

咱们分别计算上式等号右边的两个偏导数

代入，咱们求得

最后代入

至此，大功告成。

随机梯度降低算法(Stochastic Gradient Descent, SGD)

若是咱们根据(式3)来训练模型，那么咱们每次更新

如上图，椭圆表示的是函数值的等高线，椭圆中心是函数的最小值点。红色是BGD的逼近曲线，而紫色是SGD的逼近曲线。咱们能够看到BGD是一直向着最低点前进的，而SGD明显躁动了许多，但整体上仍然是向最低点逼近的。

最后须要说明的是，SGD不只仅效率高，并且随机性有时候反而是好事。今天的目标函数是一个『凸函数』，沿着梯度反方向就能找到全局惟一的最小值。然而对于非凸函数来讲，存在许多局部最小值。随机性有助于咱们逃离某些很糟糕的局部最小值，从而得到一个更好的模型。

实现线性单元

完整代码请参考GitHub: https://github.com/hanbt/learn_dl/blob/master/linear_unit.py (python2.7)

接下来，让咱们撸一把代码。

由于咱们已经写了感知器的代码，所以咱们先比较一下感知器模型和线性单元模型，看看哪些代码可以复用。

算法	感知器	线性单元
模型
训练规则

比较的结果使人震惊，原来除了激活函数

from perceptron import Perceptron
#定义激活函数f
f = lambda x: x
class LinearUnit(Perceptron):
def __init__(self, input_num):
'''初始化线性单元，设置输入参数的个数'''
Perceptron.__init__(self, input_num, f)

经过继承Perceptron，咱们仅用几行代码就实现了线性单元。这再次证实了面向对象编程范式的强大。

接下来，咱们用简单的数据进行一下测试。

def get_training_dataset():
'''
捏造5我的的收入数据
'''
# 构建训练数据
# 输入向量列表，每一项是工做年限
input_vecs = [[5], [3], [8], [1.4], [10.1]]
# 指望的输出列表，月薪，注意要与输入一一对应
labels = [5500, 2300, 7600, 1800, 11400]
return input_vecs, labels
def train_linear_unit():
'''
使用数据训练线性单元
'''
# 建立感知器，输入参数的特征数为1（工做年限）
lu = LinearUnit(1)
# 训练，迭代10轮, 学习速率为0.01
input_vecs, labels = get_training_dataset()
lu.train(input_vecs, labels, 10, 0.01)
#返回训练好的线性单元
return lu
if __name__ == '__main__':
'''训练线性单元'''
linear_unit = train_linear_unit()
# 打印训练得到的权重
print linear_unit
# 测试
print 'Work 3.4 years, monthly salary = %.2f' % linear_unit.predict([3.4])
print 'Work 15 years, monthly salary = %.2f' % linear_unit.predict([15])
print 'Work 1.5 years, monthly salary = %.2f' % linear_unit.predict([1.5])
print 'Work 6.3 years, monthly salary = %.2f' % linear_unit.predict([6.3])

程序运行结果以下图

拟合的直线以下图

小结

事实上，一个机器学习算法其实只有两部分

模型从输入特征
目标函数 目标函数取最小(最大)值时所对应的参数值，就是模型的参数的最优值。不少时候咱们只能得到目标函数的局部最小(最大)值，所以也只能获得模型参数的局部最优值。

所以，若是你想最简洁的介绍一个算法，列出这两个函数就好了。

接下来，你会用优化算法去求取目标函数的最小(最大)值。[随机]梯度{降低|上升}算法就是一个优化算法。针对同一个目标函数，不一样的优化算法会推导出不一样的训练规则。咱们后面还会讲其它的优化算法。

其实在机器学习中，算法每每并非关键，真正的关键之处在于选取特征。选取特征须要咱们人类对问题的深入理解，经验、以及思考。而神经网络算法的一个优点，就在于它可以自动学习到应该提取什么特征，从而使算法再也不那么依赖人类，而这也是神经网络之因此吸引人的一个方面。

如今，通过漫长的烧脑，你已经具有了学习神经网络的必备知识。下一篇文章，咱们将介绍本系列文章的主角：神经网络，以及用来训练神经网络的大名鼎鼎的算法：反向传播算法。至于如今，咱们应该暂时忘记一切，尽情奖励本身一下吧。

本想放个日料的，怕被说成不爱国，换成毛爷爷家的红烧肉吧:P

参考资料

Tom M. Mitchell, "机器学习", 曾华军等译, 机械工业出版社
转载自https://www.zybuluo.com/hanbingtao/note/448086