RNN,LSTM,STFCN

时间 2019-11-09

标签 rnn lstm stfcn 繁體版

原文原文链接

RNN

前向传播与后向传播与神经网络相似。Loss = -yt*log(yt’)。其中yt表示时刻t正确的结果，yt’是预测的结果。
RNN的弊端：当时间间隔变大时，早些时间的信息难以被学习。直观缘由：RNN的激活函数tanh能够映射到-1到1之间，利用梯度降低调优时用链式法则，不少个小于1的数值相乘会很快逼近0。网络

LSTM

LSTM是对S节点作了新的处理。不限制输入和输出的大小。函数

第一步是忘记门，输入是ht-1和xt，将上一时刻的输出h(t-1)和这一时刻的输入进x(t)行拼接（concat），而后判断以多大的程度来保留这部分信息（获得几率值）。Sigmoid函数。
第二步是更新准备。Sigmoid层决定什么层须要更新，i(t)等式表达的是咱们以多大几率来更新信息。Tanh层建立了新的候选值向量Ct，表示如今所有的信息。
第三步是更新状态。首先把旧状态与f(t)相乘，就丢弃掉咱们肯定须要丢弃的信息，而后加号的右部，以肯定要更新的信息，经过相加操做获得新的细胞状态Ct。
第四步是输出。首先sigmoid函数肯定哪一个部分输出，而后用tanh处理细胞状态（一个-1到1之间的值），而后与Ot相乘，输出咱们肯定输出的部分。
解决问题的直观理解：
S（t）= tanh（x(t)U + WS(t-1)）是RNN在t时刻的状态值。以后已说过问题。
是LSTM的状态值，相加，不容易出现接近0的状况。性能

STFCN(论文)

摘要

本文提出了一种同时包含时间和空间特征的对街道场景进行语义分割的方法。目前的CNN对语义分割任务中的空间特征提供了良好的支持。如何将时间特征也能发挥好的效应？咱们提出了一个基于LSTM结构的模型来讲明视频图像的时间特征。系统输入是视频的帧，输出相应大小的图像。对于分割任务，本文的模型包括三个部分，首先用CNN提取局部空间特征，而后用LSTM提取时间特征，最后卷积时间空间特征获得基于像素的预期。亮点是创建空间-时间CNN，能够端到端的对视频进行分割。实验数据集是Camvid和NYUDv2，取得了state-of-the-art的分割结果。学习

简介

在不少处理视频流的应用中，语义分割只是做为预处理的任务。因此，语义分割的结果直接影响到后续的处理结果。
语义分割方法使用图像数据中被选位置和语义环境。一系列像素一般被预测为一类或者是一个分割。若是只使用空间特征，至关于视频中的每张图片都是相互独立的，这样不能充分利用图像中的全部信息。若是加上时间特征，就能够分辨出不一样种类的两个物体，拥有相同空间特征的，但不一样的时间特征维度。咱们提出嵌入在空间特征上面的组件。这个组件也能够看做是一系列的记忆单元，这些单元存储了以前的帧分配的区域。这就说明以前的regions能够用来判断当前的特征。咱们用时间-空间输出特征来处理当前的视频流。
与其它分割方法同样，咱们使用了一些全卷积层来进行区域的语义分割。这些全卷积层用于时间-空间分类。最后用反卷积层将获得的预测扩大到原始的栅格大小来完成像素预测。
基于CNN的方法一般包括两部分，一个事描述视频流中不一样区域的类做为特征，一个是对标注的特征采用上采样用上采样获得给定视频流的大小。本文模型的优势是能够调整并嵌入第一部分的最后，也就是在推测以前。FCN-8,dilated convolution已经用了。测试

Contributions:
(1) 能够嵌入到当前最早进水平的方法中
(2) 提出了基于时间和空间特征的端到端的语义分割网络。
(3) 提出了一个将传统的全卷积网络转成时间-空间CNN的模型。
(4) 在两个数据集上达到了start-of-the-art。优化

模型

模型主要有4步：输入是It,也就是帧。FCN下采样输入图片，定义It用一个大小为WH的图像栅格，m个不一样的Maps中有特征集St^1..m。FCN的输出是大小为W’H’的St^1..m。其中，W‘<<W，H’<<H。图片It用特征集来表示，每一个点（i，j）都有1=<i<=W’，1=<j<=H’。
St^1..m是It中m个接受域的描述。
咱们把时间-空间模型放在最后一个卷积层的上面。因此特征集{St^1..m}被表示为时间-空间特征集{St^1..m}^（i，j）。对这些特征用FCN分类层作分类，可获得视频中这些区域的语义类别。最后上采样这些预测结果到It帧的大小。spa

时间-空间模型

关于It中的每一个W’H’区域，被一个Ω栅格描述，LSTM嵌入。所以一共有W’H’个LSTMs。元素{St^1..m}^（i，j）定义了It中的一个区域的空间特征。这些特征用LSTM^（i，j）来处理，推测出在It以前帧的相等区域的时间特征联系。这样，时间空间特征都能考虑到。咱们把LSTM嵌入到每一个区域。时间和空间特征公式以下：3d

其中Ω‘的大小和Ω相等。M值指定分配时间空间特征给每一个点的map，用来描述It中一个相等的区域或分割。如今Ω‘中每一个点的标签被预测，以后上采样到原始图片大小。总更新公式以下：视频

获得的结果，ct-1是上一帧的特征？blog

实验结果

用的Caffe。将LSTM合并到Caffe中。在nvidia titan和nvidia titan-x gpus上测试代码。
首先介绍如何把时间-空间模型嵌入到FCNs和dilation CNN中。
对于FCN，把时间－空间模块放到FCN－８和FCN-32的fc7上面。Fc7是最深的全卷积层，有最大的感知野，与前面较浅的卷积层相比有更过的语义信息。图1是对FCN-Alexnet的修改。嵌入以后叫作STFCN-8和STFCN-32。咱们的时间-空间模型包括有30个隐藏节点的LSTMs，在CamVid数据集上3 time-steps（一次feed 3帧到时间-空间网络）。选择3和CamVid数据集有关。一个视频一共有90帧，每30帧有一张标注的图像。咱们微调了STFCN在pascal voc上预训练的权值，momentum设为0.9，学习率10e-5。
对于Dilation8，输入是9001100，fc7的输出是6691，对时间-空间模型来讲计算维度太高，先下采样到2130，再输出到时间-空间模型上。获得的时间-空间特征输出到一个卷积层来减少特征map到最后一层的大小，作上采样，大小为6691。将两个结果混合到context模型中，对全部特征作一个基于元素的加操做。这里是在CamVid上预训练。Momentum设为0.9，学习率是10e-5。

本文的方法与FSO不一样，不须要预处理或特征优化来强化结果。而FSO用CRF模型来处理光流。计算效率和速度对在线视频处理来讲是个劣势。在另外一个数据集上的测试结果。

在这个数据集上，基于该数据集的特性，feed 不一样长度的图像序列。具体的数据结果以下：

讨论

只用了限定的视频帧做为一个序列，依据提供标注的帧数。应该在更多数据上测试发现序列的长度对系统性能的影响。