NN-Neural Network

时间 2020-08-09

原文原文链接

开始学习神经网络（Neural Network）

已有线性与逻辑回归，为何须要用到NN

实际的应用中，须要根据不少特征进行训练分类器，当今有两个特征下，能够经过下图表述：网络

![2 features](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgfzq1729tj20m107hgn6.jpg)

然而还有太多的特征须要考虑，假设这里有100个特征，包含他们全部的相关项后可能会有5000个，这种计算量很显然是很是大的，固然你能够仅保存$x_1^二、x_2^2....X_{100}^2$，此时仅100个，但此时拟合结果颇有可能出现underfitting。

![mult-features](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgfzq1oqw6j20qc07pdgw.jpg)

### NN模型表示

咱们来看看咱们如何使用神经网络来表示一个假设函数。简单地，神经元基本上是计算单位，其将输入（树突）做为被输送到输出（轴突）的电输入（称为“尖峰”）。在咱们的模型中，咱们的树突像输入特征$x_一、x_2...x_n$，输出是咱们假设函数的结果。在这个模型中，咱们的$x_0$输入节点有时被称为“偏置单元”。它老是等于1。函数

![Nucleus](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgfzq2dqo1j20he0a4q78.jpg)

这里咱们依然利用$\frac{1}{1+e^{-\theta^Tx}}$做为咱们的逻辑函数（logistic function），有时称为s形激励函数（sigmoid activation function）。这里的参数Theta也被称为权重“Weights”

咱们的输入节点（第1层）也称为“输入层”，进入另外一个节点（第2层），最终输出称为“输出层”的假设函数。在输入层与输出层之间的部分咱们通常称为隐藏层。在这个例子中，咱们标注这些中间层或“隐藏”层节点$a_0^2...a_n^2$并将其称为“激励单元”。学习

$a_j^{(j)}$称为第j层中的第i个单元，矩阵$\Theta^{(j)}$描述的是第j层到第j+1层权重。下图反应了仅包含一个隐藏层的状况：spa

每一个节点的”激励“（activation）按照一下计算：blog

![activation](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgfzq36l3cj20c703caa5.jpg)

这就是说，咱们使用3×4的参数矩阵来计算激活节点。咱们将每行参数应用到咱们的输入，以得到一个激活节点的值。咱们的假设输出是应用于激活节点的值之和的逻辑函数，它们已经乘以包含第二层节点权重的另外一个参数矩阵$\Theta^{(2)}$。

对于权重矩阵的维度：it

若是网络在层j + 1中有和$s_{j+1}$单元，层j中具备$s_j$单元，则$\Theta^{(j)}$将为尺寸$s_{j+1}$×（$s_j$ + 1）。io

如：在第一层有2个输入单元，第二层有4个激励点，那么权重参数$\Theta^{(1)}$的维度为4×(2+1)=4×3。function

总结以下图所示：class

![summary of the repression](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgfzq3hwi0j20i30a8jti.jpg)

接下来，咱们将对上述函数进行向量化实现。咱们要定义一个包含咱们g函数内的参数的新变量$z_k^{(j)}$。在咱们前面的例子中，若是咱们用变量z代替全部参数，咱们将获得：变量

![vector for simplify](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgfzq3o6y0j203q02fdfm.jpg)

换句话说，对于层数J=2中的第k个节点，变量z有：

$z_k^{(2)}=\Theta_{k,0}^{(1)}x_0+\Theta_{k,1}^{(1)}x_1+...\Theta_{k,n}^{(1)}x_n$

用向量表示为：

![vector of the var](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgfzq3yhetj2066032q2r.jpg)

将输入x设置为$a^{(1)}$，有如下等式：

$z^{(j)}=\Theta^{(j-1)}a^{(j-1)}$

最后有：$h_\Theta(x)=a^{(j+1)}=g(z^(j+1))$

请注意，在最后一步中，在层j和层j + 1之间，咱们的作法与咱们在逻辑回归中彻底同样。在神经网络中添加全部这些中间层使咱们可以更优雅地产生有趣和更复杂的非线性假设。