Deep Learning Notes-Chapt6: Deep Feedforward Networks

时间 2019-12-05

标签 deep learning notes chapt6 chapt feedforward networks 繁體版

原文原文链接

这一章的开头以一个颇有趣的例子(XOR)解释了线性模型(linear model)的局限性。网络

线性模型的局限

假设如今咱们要使用线性模型构造与或门(XOR)，即对以下几组输入：
$$x_1 = [0, 0] \qquad x_2 = [0, 1] \qquad x_3=[1, 0] \qquad x_4=[1, 1] $$
咱们但愿$y$值分别是:
$$[0, 1, 1, 0]$$函数

按照线性函数的平方损失／线性模型，最后参数$w$为0，$b$为0.5，即对任何输入$x$，其预测结果均为1/2。为何会这样？学习

线性模型的一大问题在于它是输入特征的线性加权，没法学习“两个特征之间的交互做用”。咱们将输入数据展现出来：
spa

线性模型的困境：图片

若是咱们能有一种非线性变换（为什么必须是非线性？由于线性矩阵的线性变换，结果仍然是线性的），使上图的点变成这样：

此时这些点又变得线性可分了。那么如何寻找这样一个变换函数，且最终学习参数将它们分开呢？it

这里采用的非线性变换函数叫Rectified linear activation function，它有几个好处：io

咱们构建一个神经网络：
function

并引入变换函数：

此时，构造的假设函数为：
$$f(xx;W,c,w,b) = w^Tmax\{0, W^Tx+c\} +b$$class