机器学习实验笔记

时间 2019-12-05

标签机器学习实验笔记繁體版

原文原文链接

实验1 --- 基于 RNN 的 MNIST 手写字符识别实验

工做流
预处理(转化为灰度图) --- 卷积 --- 池化 --- 卷积 --- 池化 --- 全链接层 --- softmax --- 输出网络
简述卷积神经网络要素：卷积核、滤波器、池化、特征图
卷积
利用卷积操做能够从图像中提取特征ide

另外，卷积神经网络CNN，利用到了图像的局部相关性，这样能够减小全链接，减小须要训练的参数函数

卷积核至关于一个filter, 卷积核的大小通常采用 3x3 或 5x5翻译

卷积操做, 至关于把卷积核做为一个 mask, 在像素矩阵上进行滑动, 而后进行加权求和做为特征值, 结果保存为新矩阵的对应像素点, 最后获得的新矩阵就是特征图设计

不一样的卷积核, 能够提取图片的不一样特征, 能够提高图片分类效果图片
池化
池化也是一种提取特征的方式, 池化操做的过程和卷积很相似, 可是池化层还能够起到降维的做用。根据参考资料, 这样作的效果之一是增长特征的鲁棒性，减少过拟合get

池化分为平均值池化和最大值池化, 平均池化就是取这个区域的平均值做为特征值, 最大池化则是取最大值做为特征值。工作流

池化层通常紧跟在卷积层后面。it
padding
same padding , 若是滑动窗口在通过某个 stride 后超出了图像范围, 则须要在外面补 0 以继续滑动提取特征值。神经网络

valid padding , 超出范围的就不要了。
dropout, 随机丢弃, 防止过拟合, 同时加快训练速度

实验2 --- 基于 RNN 的注册码图像识别实验

工做流
预处理(转化为灰度图) --- 卷积 --- 池化 --- 卷积 --- 池化 --- 全链接层 --- softmax --- 输出

整体流程与实验1相同, 不过待识别数字从 1 个变成了 4 个(一块儿识别), 计算量更大

实验3 --- 基于 LSTM 的图像识别实验

工做流
预处理(转化为灰度图, 60x160) --- 划分为 160 列 --- LSTM --- 全链接层 --- softmax --- 输出
RNN
Recurrent neural network, 循环神经网络, 在语音识别、天然语言处理、机器翻译、图像描述等领域有普遍应用。

在处理语音的时候，因为上下文的相关性，须要把一段时间内的语音连起来进行分析，传统的神经网络作不到这一点。也就是说，与时间序列相关的分析和预测一般要用到RNN

即当前的预测值考虑到了以前的运行结果。
即便只有一层的RNN模型，仍可能出现梯度消失和梯度爆炸，为何？
一层RNN模型里面有不少个单元，至关于有不少层的神经元，而不是只有一个神经元。

RNN在处理长期依赖（时间序列上距离较远的节点）时，距离较远的节点之间的联系时会涉及雅可比矩阵的屡次相乘，这会带来梯度消失（常常发生）或者梯度爆炸（较少发生）的问题。不过问题的产生也和激活函数的选择有关，假设选择 y = x 做为激活函数就不会产生梯度消失的问题，固然实际应用中不会这样选择激活函数。

通常选择 ReLU
LSTM与通常的RNN相比，优点在哪？
LSTM, Long short-term memory, 长短时记忆网络, 是一种特殊结构的 RNN, 可以解决普通 RNN 不能解决的长期依赖问题。

普通 RNN 会记住久远的东西, 有用的没用的都记住了, 而且不会忘记, 这样会致使这个网络没有选择性。更合理的作法是，记住重要的，把不重要的忘记了。LSTM就是根据这种思想设计的。

LSTM包含了三个门, Input Gate, Output Gate, Forget Gate. 这三个门是用来控制信号的, 而不是信号直接经过这几个门进出。

输入信号从上图的最下面输进来, 而后 Input Gate 与输入信号进行相乘, 传给中间的 Cell. 也就是说, 若是这个输入的信号是重要的, 那么 Input Gate 就会让它进来, 若是没什么用, 那么 Input Gate 就不让它进来。Forget Gate 用于衰减信号,Output Gate 用于控制输出比例.

经过这三个门, LSTM 能够选出重要的信息, 帮助进行信号过滤。
GRU 是 LSTM 的一个变体
- 对 memory 的控制
  LSTM：用output gate 控制，传输给下一个unit
  
  GRU：直接传递给下一个unit，不作任何控制