深度学习笔记

TensorFlow

  1. TensorFlow不只是一个实现机器学习算法的接口,也是一种框架,也可用于线性回归、逻辑回归、随机森林等算法;
  2. TensorFlow使用数据流图来规划计算流程,每一个运算操做做为一个节点node,节点之间的链接称为边,边中流动的数据称为张量,故而得名TensorFlow,预算操做能够有本身的属性,但必须被预先设置,或者能在建立计算图时被推断出来;
  3. TensorFlow有一套为节点分配设备的策略,这是一个简单的贪婪策略,不能确保找到全局最优解,但能够快速找到一个不错的节点运算分配方案;
  4. 故障出现的两种状况:一是信息从发送节点传输到接受节点失败时,而是周期性的worker心跳检测失败时;
  5. TensorFlow提供的加速神经网络训练的并行计算模式:
    • 数据并行:经过将一个mini-batch的数据放在不一样设备上计算没实现梯度计算的并行化,计算性能损耗很是小,同步的方式优势是没有梯度干扰,缺点是容错性差,异步的方式优势是有必定容错性,但由于梯度干扰,致使利用效率降低;
    • 模型并行:将计算图的不一样部分放在不一样设备上运算;
    • 流水线并行:将计算作成流水线,在一个设备上连续并行执行,提升设备利用率;

卷积神经网络CNN

  1. CNN具备极强泛化性,最大的特色在于卷积的权值共享结构,能大幅较少神经网络的参数量,防止过拟合的同时下降了神经网络模型的复杂度;
  2. CNN每一个卷基层中对数据的操做:
    • 图像经过多个不一样卷积核的滤波,加以偏置,提取出局部特征,每一个卷积核映射出一个新的2D图像;
    • 将卷积核的滤波结果进行非线性的激活函数处理,常为ReLU函数;
    • 对激活结果进行池化操做(即降采样),通常采用最大池化,保留最显著特征,提高模型的畸变容忍能力;
  3. 卷积核的大小即为卷积核拥有的参数多少;
  4. 采用局部链接的方式,参数量获得了缩减;
  5. 卷积的好处是无论图片尺寸如何,咱们须要训练的权值数量只和卷积核大小、卷积核数量有关,能够用极少的参数量处理任意大小的图片,虽然训练的参数降低了,但隐含节点数量未降低,隐含节点数量只与卷积的步长相关;
  6. CNN要点:
    • 局部链接:下降参数量,减轻过拟合,下降训练复杂度;
    • 权值共享:下降参数量,减轻过拟合,赋予对平移的容忍性;
    • 池化层中的降采样:下降输出参数量,赋予轻度形变的容忍性,调高模型的泛化能力;
  7. LeNet5的特性:
    • 每一个卷基层包含三个部分:卷积、池化、非线性激活函数;
    • 使用卷积提取空间特性;
    • 降采样的平均池化层;
    • 双曲正切或S型激活函数;
    • MLP(多层神经网络)做为最后的分类器;
    • 层与层之间的稀疏链接减小计算复杂度;
  8. LeNet5有三个卷积层、一个全链接层和一个高斯链接层;
    • 第一个卷积层6个卷积核,尺寸55,共(55+1)*6 = 156个参数
    • 第二个卷积层16个卷积核;
    • 第三个卷积层120个卷积核;
    • 全链接层84个隐含节点,激活函数Sigmoid;
  9. VGGNet-16网络结构主要分为6部分,前5段为卷积网络,最后一段为全链接网络;
    • 第一段:两个卷积层和一个最大池化层,卷积核大小33,卷积核数量64,步长11,第一个卷积层输入尺寸2242243,输出尺寸22422464,第二个输入输出尺寸均为22422464,池化层22,输出尺寸112112*64;
    • 第二段:和第一段类似,输出通道数变为128,卷积网络输出尺寸5656128,池化层保持不变;
    • 第三段:三个卷积层和一个最大池化层,输出通道变为256,输出尺寸2828256;
    • 第四段:和第三段类似,输出通道变为512,经过最大池化将图片缩为14*14;
    • 第五段:和第四段类似,池化层尺寸22,步长为22,输出尺寸77512;
    • 第六段:将第五段输出结果进行扁平化,链接一个隐含节点数为4096的全链接层,激活函数为ReLU;

R-CNN

  1. 检测系统三个模块:
    • 生成类别无关区域提案;
    • 从每一个区域提取固定长度特征向量的大型CNN;
    • 一组特定类别的线性SVM;
  2. 须要训练数据的三个阶段:
    • CNN微调;
    • 检测器SVM训练;
    • 检测框回归训练;
  3. 引入CNN来分类目标候选框,有很高的目标检测精度,但有明显缺点:
    • 训练过程是多级流水线;
    • 训练在时间和空间的开销上极大;
    • 目标检测速度很慢,由于为每一个目标候选框进行CNN正向传递,不共享计算;

Fast R-CNN

  1. 训练VGG16网络比SPP-Net快3倍,测试速度快10倍,比R-CNN训练快9倍,测试时间快213倍,有13个卷积层和3个fc层;
  2. 目标检测难点:
    • 大量候选目标位置(提案)须要处理;
    • 候选框只提供粗略定位,必须对其精细化以实现精肯定位;
  3. 优势:
    • 比R-CNN和SPPnet有更高的目标检测精度mAP;
    • 训练是使用多任务损失的但阶段训练;
    • 训练能够更新全部网络层参数;
    • 不须要磁盘空间缓存特征;
  4. 网络架构流程:输入图像和多个感兴趣区域ROI,传送到全卷积网络,经池化到固定大小的特征图中,而后经过全链接层FC映射到特征向量,网络对每一个ROI具备两个输出向量:Softmax几率和每类检测框回归偏移量;

Faster R-CNN

  1. Faste R-CNN实现了接近实时检测的速率,但忽略了生成区域提案框的时间,Faster R-CNN算法经过将RPN网络集成到目标检测网络中共享卷积层,缩减了生成区域提案框的时间,计算提案框的边界成本小;
  2. RPN是一种全卷积网络FCN,能够针对生成检测提案框的任务端到端训练;
  3. RPN中引入新“锚点”做为多尺度和纵横比的参考,避免了枚举多个尺度或纵横比得图像或卷积;
  4. 为统一RPN和Fast R-CNN网络,提出一种训练方案:保持提案框固定,微调区域提案和微调目标检测之间交替进行;
  5. 组成模块:
    • 提出区域提案的CNN网络;
    • 使用区域提案的Fast R-CNN检测器;
  6. RPN将一个任意大小的图像做为输入,输出矩形目标提案框的集合,每一个框由一个objectness得分;
  7. 为生成区域提案框,在最后一个共享的卷积层输出的卷积特征映射上滑动小网络,网络链接到输入卷积特征映射的n*n的空间窗口,每一个滑动窗口映射到一个低维向量上,向量在输出给两个同级的全链接的层:检测框回归层reg和检测框分类层cls;
  8. 多尺度预测方式:
    • 基于图像/特征金字塔:以多尺度调整大小,为每一个尺度计算特征图,有效却耗时;
    • 在特征图上使用多尺度的滑动窗口;
  9. 具备共享特征的网络的解决方案:
    • 交替训练;
    • 近似联合训练;
    • 非近似联合训练;
  10. cls检测框分类层得分是排名最高的提案框准确的缘由;
相关文章
相关标签/搜索