Coursera机器学习week4 笔记

时间 2020-06-18

标签 coursera 机器学习 week4 week 笔记繁體版

原文原文链接

Neural Networks: Representation

Non-linear hypotheses

咱们以前学到的，不管是线性回归仍是逻辑回归都有一个缺点，当特征太多时，计算负荷会很是的大。算法

以下：网络

只有x1和x2，但运用屡次项进行预测时，咱们的方程能够很好的预测。使用非线性的多项式可以帮助咱们创建更好的分类模型。学习

例如咱们有不少的特征，100个变量，用这100个特征构建一个非线性的多项式模型，结果将是很是大的特征组合，即便咱们只才有两两特征的组合(x₁x₂+x₁x₃+x₁x₄+...+x₂x₃+x₂x₄+...x₉₉x₁₀₀),也会有解决5000个组合而成的特征，对于通常的逻辑回归特征是太多了。ui

例如：spa

一张图片，即便是50*50的图片，也有解决2500个特征，若是进行两两特征组合构成一个多项式模型，就约有2500²/2的特征组合(接近3百万个)，在大一点的图片特征就更多了，计算负荷会很是的大。图片

Neurons and the brain

神经网络兴起于二十世纪八九十年代，应用得很是普遍，但因为各类缘由，在90年代的后期应用逐渐减小。最近，神经网络又东山再起了。input

其中一个缘由是神经网络是计算量偏大的算法，而如今计算机的运行速度变快不少，才足以真正运行起大规模的神经网络。it

例如咱们的听觉和视觉：io

还有各类各样的例子：class

Model representation I

在人的大脑中，每个神经元均可以被认为是一个处理单元/神经核(processing unit/ Nucleus)，它含有许多输入/树突(input/Dendrite)，而且有一个输出/轴突(output/Axon)

神经网络是大量神经元相互链接并经过电脉来交流的一个网络。

神经网络模型创建在不少神经元之上，每个神经元又是一个个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征做为输出，而且根据自己的模型提供一个输
出。下图是一个以逻辑回归模型做为自身学习模型的神经元示例，在神经网络中，参数又可被成为权重（weight）。

神经网络也能够有隐藏层：

其中x₁,x₂,x₃是输入单元，咱们把原始数据输入给它们，a₁,a₂,a₃是中间单元，它们负责将数据进行处理，而后呈递到下一层。最后是输出单元，它负责计算h(x).

符号定义：

每一层的输出变量都是下一层的输入变量，第一层为输入层，最后一层为输出层，中间的为隐藏层，每一层都有一个误差单元。

这样经过计算最终就能够获得h_θ(x)的值。通常状况下每一层都要多加入一个变量。

咱们把这样从左往右的算法称为前向传播算法(FORWARD PROPAGATION)

Model representation II

利用向量化的方法会使得计算更为简便。以上面的神经网络为例，计算第二层的值：

咱们令z⁽²⁾ = θ⁽¹⁾x，则a⁽²⁾ = g(z⁽²⁾)，计算后添加a⁽²⁾₀ = 1。

一样令z⁽²⁾ =θ⁽¹⁾a⁽²⁾ ，则hθ(x) = a⁽³⁾ = g(z⁽³⁾)。

多层的也相似：

由上一层输出值看成下一层输入值进行计算获得输出值给下一层。

Examples and intuitions I

以XOR(异或)为例：

当x¹ = x² 时 y = 1 ，或者 y = 0

上面是“与”(AND)运算，输入层由两个变量x¹和x²组成，再加上一个1，权重分别是-30,20,20。

那么h_θ(x) = a¹ = g(z⁽¹⁾) = g(-30+20x₁+20x₂)，将x₁,x₂的值代入进去，获得的值正好和“与”运算相符

再好比“或”(OR)运算，权重能够设为-10，20，20这三个，得出的结果会和“或”运算相符。

Examples and intuitions II

以前介绍了“或”和“与”，下面介绍下“非”运算，这个更简单些，只须要一个变量。

有了“或”、“与”和“非”，如今就能够计算“同或门”运算了。

因为x₁XNOR x₂= (x₁ and x₂ ) or ((not x₁) and (not x₂))

因此咱们能够先计算 (x₁ and x₂ ) 为 a₁，(not x₁) and (not x₂) 为 a₂. 而后在计算a₁ or a₂ 获得答案

过程以下：

Multiclass Classification

有时候咱们有不止两种分类，也就是y = 2, 3, 4, 5..... 那么这种状况怎么办呢？

若是咱们要训练一个神经网络算法来识别路人、汽车、摩托车和卡车，在输出层咱们应该有 4 个值。

例如，第一个值为 1 或 0 用于预测是不是行人，第二个值用于判断是否为汽车。
那么[1; 0; 0; 0]能够表示路人，[0; 1; 0; 0] 能够表示汽车等等。

输入状况就有四种了：