这一章的开头以一个颇有趣的例子(XOR)解释了线性模型(linear model)的局限性。网络
假设如今咱们要使用线性模型构造与或门(XOR),即对以下几组输入:
$$x_1 = [0, 0] \qquad x_2 = [0, 1] \qquad x_3=[1, 0] \qquad x_4=[1, 1] $$
咱们但愿$y$值分别是:
$$[0, 1, 1, 0]$$函数
按照线性函数的平方损失/线性模型,最后参数$w$为0,$b$为0.5,即对任何输入$x$,其预测结果均为1/2。为何会这样?学习
线性模型的一大问题在于它是输入特征的线性加权,没法学习“两个特征之间的交互做用”。咱们将输入数据展现出来:spa
线性模型的困境:图片
若是咱们能有一种非线性变换(为什么必须是非线性?由于线性矩阵的线性变换,结果仍然是线性的),使上图的点变成这样:
此时这些点又变得线性可分了。那么如何寻找这样一个变换函数,且最终学习参数将它们分开呢?it
这里采用的非线性变换函数叫Rectified linear activation function,它有几个好处:io
咱们构建一个神经网络:function
并引入变换函数:
此时,构造的假设函数为:
$$f(xx;W,c,w,b) = w^Tmax\{0, W^Tx+c\} +b$$class