深度学习的发展不只突破了许多视觉难题,也加速了计算机视觉领域相关技术的进步。本文主要从CV数据处理、CV模型(CNN)、CV模型训练流程以及CV模型集成对计算机视觉的基础知识和基本环节进行了讲解。python
https://tianchi.aliyun.com/competition/entrance/531795/information(阿里天池-零基础入门CV赛事)git
五种数据读取方法
目前较为主流的Python图像库的基本使用方法:github
1. matplotlib算法
matplotlib是Python的绘图库,在科学绘图领域被普遍使用。使用plt.imread()读取图片将其储存为一个RGB像素值矩阵,再进行处理。故其能够与opencv或pillow结合使用,只须要传入像素值矩阵,matplotlib即可以接手处理接下来想要完成的操做。2. PIL(pillow)安全
PIL即Python Imaging Library,而pillow是PIL的一个分支。pillow提供了常见的图像读取和处理的操做,它比opencv更为轻巧,且能够与ipython notebook无缝集成。使用Image.open()读取图片储存为一个对象,并不是是numpy矩阵。网络
3. OpenCV架构
OpenCV是一个跨平台的计算机视觉库,是今天介绍的全部图像库中最全面也最强大的库。使用cv2.imread()读取图片将其储存为一个BGR像素值矩阵,故若要结合使用matplotlib则要先进行转化。app
4. skimage框架
skimage包是scikit-image SciKit (toolkit for SciPy) 的简称,它对scipy.ndimage进行了扩展,提供了更多的图片处理功能。skimage包由许多的子模块组成,各个子模块功能不一样。使用io.imread()读取图片将其储存为一个RGB像素值矩阵。dom
Imageio是一个Python库,提供了一个简单的接口用于读取和写入各类图像数据,包括动画图像,视频,体积数据和科学格式。使用imageio.imread()读取图片将其储存为一个RGB像素值矩阵。
五种数据扩增技巧
在深度学习模型的训练过程当中,数据扩增是必不可少的环节。现有深度学习的参数很是多,通常的模型可训练的参数量基本上都是万到百万级别,而训练集样本的数量很难有这么多,数据扩增能够扩展样本空间。
扩增通常不会改变标签;对于物体检测,数据扩增会改变物体坐标位置;对于图像分割,数数据扩增方法有不少:从颜色空间、尺度空间到样本空间,同时根据不一样任务数据扩增都有相应的区别。对于图像分类,数据据扩增会改变像素标签。以torchvision.transforms为例,首先总体了解数据扩增的方法,包括:
1. 裁剪
中心裁剪:transforms.CenterCrop;
随机裁剪:transforms.RandomCrop;
随机长宽比裁剪:transforms.RandomResizedCrop;
上下左右中心裁剪:transforms.FiveCrop;
上下左右中心裁剪后翻转: transforms.TenCrop。
2. 翻转和旋转
依几率p水平翻转:transforms.RandomHorizontalFlip(p=0.5);
依几率p垂直翻转:transforms.RandomVerticalFlip(p=0.5);
随机旋转:transforms.RandomRotation。
3. 随机遮挡
对图像进行随机遮挡: transforms.RandomErasing。
4. 图像变换
尺寸变换:transforms.Resize;
标准化:transforms.Normalize;
填充:transforms.Pad;
修改亮度、对比度和饱和度:transforms.ColorJitter;
转灰度图:transforms.Grayscale;
依几率p转为灰度图:transforms.RandomGrayscale;
线性变换:transforms.LinearTransformation();
仿射变换:transforms.RandomAffine;
将数据转换为PILImage:transforms.ToPILImage;
转为tensor,并归一化至[0-1]:transforms.ToTensor;
用户自定义方法:transforms.Lambda。
5. 对transforms操做,使数据加强更灵活
transforms.RandomChoice(transforms): 从给定的一系列transforms中选一个进行操做;
transforms.RandomApply(transforms, p=0.5): 给一个transform加上几率,依几率进行操做;
transforms.RandomOrder: 将transforms中的操做随机打乱。
1. torchvision
pytorch官方提供的数据扩增库,提供了基本的数据扩增方法,能够无缝与torch进行集成;但数据扩增方法种类较少,且速度中等;
连接:https://github.com/pytorch/vision
2. imgaug
imgaug是经常使用的第三方数据扩增库,提供了多样的数据扩增方法,且组合起来很是方便,速度较快;
连接:https://github.com/aleju/imgaug
3. albumentations
是经常使用的第三方数据扩增库,提供了多样的数据扩增方法,对图像分类、语义分割、物体检测和关键点检测都支持,速度较快。
连接:https://albumentations.readthedocs.io
CNN原理卷积神经网络(Convolutional Neural Network, CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在不少领域都表现优异,精度和速度比传统计算学习算法高不少。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成,每一个卷积核对输入的像素进行卷积操做,获得下一次的输入。随着网络层的增长卷积核会逐渐扩大感觉野,并缩减图像的尺寸。卷积神经网络与普通神经网络很是类似,它们都由具备可学习的权重和偏置常量的神经元组成。每一个神经元都接收一些输入,并作一些点积计算,输出是每一个分类的分数,普通神经网络里的一些计算技巧到这里依旧适用。二者的不一样点在于,卷积神经网络默认输入是图像,可让咱们把特定的性质编码入网络结构,使咱们的前馈函数更加有效率,并减小了大量参数。
1. 具备三维体积的神经元(3D volumes of neurons)
卷积神经网络利用输入图片的特色,把神经元设计成三个维度 :width, height, depth。好比输入的图片大小是 32 × 32 × 3 (rgb),那么输入神经元就也具备 32×32×3 的维度。下面是传统神经网络的示意图:
一个卷积神经网络由不少层组成,它们的输入是三维的,输出也是三维的,有的层有参数,有的层不须要参数。卷积神经网络的示意图以下:
2. 卷积神经网络结构
2.1 卷积层(Convolutional layer)
卷积神经网路中每层卷积层由若干卷积单元组成,每一个卷积单元的参数都是经过反向传播算法优化获得的。卷积运算的目的是提取输入的不一样特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。
2.2 池化层(Pooling layer)
一般在卷积层以后会获得维度很大的特征,将特征切成几个区域,取其最大值或平均值,获得新的、维度较小的特征。
池化即下采样,目的是为了减小特征图。池化操做对每一个深度切片独立,规模通常为 2*2,相对于卷积层进行卷积运算,池化层进行的运算通常有如下几种:
最大池化(Max Pooling)。取4个点的最大值。这是最经常使用的池化方法。
均值池化(Mean Pooling)。取4个点的均值。
高斯池化。借鉴高斯模糊的方法。不经常使用。
最多见的池化层是规模为2*2, 步幅为2,对输入的每一个深度切片进行下采样。每一个MAX操做对四个数进行,以下图所示:
池化操做将保存深度大小不变。若是池化层的输入单元大小不是二的整数倍,通常采起边缘补零(zero-padding)的方式补成2的倍数,而后再池化。
2.3 非线性激活函数
神经的非线性激活化函数,用于增长网络的非线性分割能力,通常用Relu函数。
2.4 全链接层( Fully-Connected layer)
彻底链接层是一个传统的多层感知器,它在输出层使用 softmax 激活函数。把全部局部特征结合变成全局特征,用来计算最后每一类的得分。一个卷积神经网络各层应用实例:
CNN常见模型1. 卷积神经网络基础:LeNet5手写字体识别模型LeNet5诞生于1994年,是最先的卷积神经网络之一。LeNet5经过巧妙的设计,利用卷积、参数共享、池化等操做提取特征,避免了大量的计算成本,最后再使用全链接神经网络进行分类识别,这个网络也是最近大量神经网络架构的起点。
以下图所示为LeNet网络结构,总共有7层网络(不含输入层),2个卷积层、2个池化层、3个全链接层。
2. 卷积神经网络进阶
随着网络结构的发展,研究人员最初发现网络模型结构越深、网络参数越多模型的精度更优。比较典型的是AlexNet、VGG、InceptionV3和ResNet的发展脉络。
2012年,AlexNet横空出世。这个模型的名字来源于论文第一做者的姓名Alex Krizhevsky。AlexNet使用了8层卷积神经网络,并以很大的优点赢得了ImageNet 2012图像识别挑战赛。它首次证实了学习到的特征能够超越手工设计的特征,从而一举打破计算机视觉研究的现状。
与相对较小的LeNet相比,AlexNet包含8层变换,其中有5层卷积和2层全链接隐藏层,以及1个全链接输出层。AlexNet在LeNet的基础上增长了3个卷积层。但AlexNet做者对它们的卷积窗口、输出通道数和构造顺序均作了大量的调整。虽然AlexNet指明了深度卷积神经网络能够取得出色的结果,但并无提供简单的规则以指导后来的研究者如何设计新的网络。
VGG,它的名字来源于论文做者所在的实验室Visual Geometry Group。VGG提出了能够经过重复使用简单的基础块来构建深度模型的思路。VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核(11x11,7x7,5x5) 。VGG16包含了16个隐藏层(13个卷积层和3个全链接层)。VGG的结构图以下:
在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet的网络结构大放异彩。它虽然在名字上向LeNet致敬,但在网络结构上已经很难看到LeNet的影子。GoogLeNet吸取了NiN中网络串联网络的思想,并在此基础上作了很大改进。在随后的几年里,研究人员对GoogLeNet进行了数次改进,本节将介绍这个模型系列的第一个版本。
由Inception基础块组成。
Inception块至关于⼀个有4条线路的⼦⽹络。它经过不一样窗口形状的卷积层和最⼤池化层来并⾏抽取信息,并使⽤1×1卷积层减小通道数从而下降模型复杂度。
Inception块GoogLeNet中的基础卷积块叫做Inception块,得名于同名电影《盗梦空间》(Inception)。与上一节的NiN块相比,这个基础块在结构上更加复杂。
深度学习的问题:深度CNN网络达到必定深度后再一味地增长层数并不能带来进一步地分类性能提升,反而会招致网络收敛变得更慢,准确率也变得更差。- - -残差块(Residual Block)恒等映射:
左边:f(x)=x;
右边:f(x)-x=0 (易于捕捉恒等映射的细微波动)。
ResNet的前两层跟以前介绍的GoogLeNet中的同样:在输出通道数为6四、步幅为2的7*7卷积层后接步幅为2的3*3的最大池化层。不一样之处在于ResNet每一个卷积层后增长的批量归一化层。ResNet-50网络结构以下:
在机器学习模型(特别是深度学习模型)的训练过程当中,模型是很是容易过拟合的。深度学习模型在不断的训练过程当中训练偏差会逐渐下降,但测试偏差的走势则不必定。
在模型的训练过程当中,模型只能利用训练数据来进行训练,并不能接触到测试集上的样本,故须要构建验证数据集对模型进行验证。
过拟合与欠拟合
拟合(Fitting):就是说这个曲线能不能很好的描述某些样本,而且有比较好的泛化能力。
过拟合(Overfitting):模型把数据学习的太完全,以致于把噪声数据的特征也学习到了,这样就会致使在后期测试的时候不可以很好地识别数据,即不能正确的分类,模型泛化能力太差。
欠拟合(UnderFitting):模型没有很好地捕捉到数据特征,不可以很好地拟合数据,或者是模型过于简单没法拟合或区分样本。
防止过拟合方法
防止欠拟合方法
减小正则化参数,正则化的目的是用来防止过拟合的,可是如今模型出现了欠拟合,则须要减小正则化参数。
数据集划分
测试集(Test Set):验证模型的泛化能力。
由于训练集和验证集是分开的,因此模型在验证集上面的精度在必定程度上能够反映模型的泛化能力。在划分验证集的时候,须要注意验证集的分布应该与测试集尽可能保持一致,否则模型在验证集上的精度就失去了指导意义。
既然验证集这么重要,那么如何划分本地验证集呢。在一些比赛中,赛题方会给定验证集;若是赛题方没有给定验证集,那么参赛选手就须要从训练集中拆分一部分获得验证集。验证集的划分有以下几种方式:
留出法(Hold-Out) 直接将训练集划分红两部分,新的训练集和验证集。这种划分方式的优势是最为直接简单;缺点是只获得了一份验证集,有可能致使模型在验证集上过拟合。留出法应用场景是数据量比较大的状况。
交叉验证法(Cross Validation,CV) 将训练集划分红K份,将其中的K-1份做为训练集,剩余的1份做为验证集,循环K训练。这种划分方式是全部的训练集都是验证集,最终模型验证精度是K份平均获得。这种方式的优势是验证集精度比较可靠,训练K次能够获得K个有多样性差别的模型;CV验证的缺点是须要训练K次,不适合数据量很大的状况。
这些划分方法是从数据划分方式的角度来说的,在现有的数据比赛中通常采用留出法和交叉验证法。若是数据量比较大,留出法仍是比较合适的。
训练神经网络的流程
1. 好好检查数据
训练神经网络的第一步是彻底不接触任何神经网络代码,而是从完全检查数据开始。此步骤相当重要。花时间去检查数据是一件比较重要的工做。由于数据中每每可能存在异常值,并且了解它们的分布能够有利于咱们找到一个更好的模型。
2. 评估框架并获得一个并不完美的baseline
此阶段的提示和技巧:
固定随机种子:始终使用固定的随机种子来确保两次运行代码时您将得到相同的结果;
简化:在此阶段,请务必关闭任何数据扩充功能。数据扩充是咱们稍后可能会采用的一种正则化策略,可是目前这只是引入一种错误的尝试;
验证损失:验证您的损失是否从正确的损失值开始;
设定一个好的初始化;
人类基线:监控除损失以外的指标,这些指标是人类能够解释和检查的(例如准确性)。尽量评估本身(人类)的准确性并与之进行比较;
可视化预测动态。在训练过程当中可视化固定测试批次上的模型预测。这些预测如何运动的“动力”将对训练的进行方式有很是好的直觉。若是网络以某种方式过分摆动,可能会感受网络“努力”以适应您的数据,这代表不稳定。抖动量也很容易注意到很是低或很是高的学习率。
3. 过分拟合
找到一个好的模型的方法有两个阶段:首先得到一个足够大的模型以使其能够过分拟合(即专一于训练损失),而后适当地对其进行正则化(放弃一些训练损失以提升验证损失)。
此阶段的一些提示和技巧:
选择模型:为了减小训练损失,您须要为数据选择合适的体系结构。
Adam是安全的。在设定基准的早期阶段,我喜欢以3e-4的学习率使用Adam 。以个人经验,亚当更宽容超参数,包括不良的学习速度。对于ConvNets,调整良好的SGD几乎老是比Adam稍胜一筹,可是最佳学习率区域要狭窄得多且针对特定问题。
一次只使一个复杂化。若是您有多个信号要插入您的分类器,我建议您将它们一个接一个地插入,并每次确保得到预期的性能提高。
不要相信学习率衰减的默认值。若是您要从新使用其余领域的代码,请务必当心学习率。
4. 正则化
此阶段的一些提示和技巧:
获取更多数据
数据扩充
创意加强:若是半假数据没有作到这一点,伪造数据也可能会有所做为。人们正在寻找扩展数据集的创新方法。例如,领域随机化,模拟的使用,巧妙的混合,例如将(潜在模拟的)数据插入场景,甚至GAN。
使用预训练网络
坚持监督学习
减少输入维数
减少模型尺寸
减少批量大小
Dropout
提前中止训练。根据您测得的验证损失提早中止训练,以在模型快要过拟合的时候捕获模型。
尝试更大的模型。大型模型大多数最终会过拟合,可是它们的“早期中止”性能一般会比小型模型好得多。
5. 微调
此阶段的一些提示和技巧:
随机网格搜索
超参数优化
6. 进一步提升精确率
模型集成
分类器(Classifier)
分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
分类器的构造和实施大致会通过如下几个步骤:
1. 决策树分类器
构造这个分类器不须要任何领域的知识,也不须要任何的参数设置。所以它特别适合于探测式的知识发现。此外,这个分类器还能够处理高维数据,并且采用的是相似于树这种形式,也特别直观和便于理解。所以,决策树是许多商业规则概括系统的基础。
2. 朴素贝叶斯分类器
素贝叶斯分类器是假设数据样本特征彻底独立,以贝叶斯定理为基础的简单几率分类器。
3. AdaBoost算法
AdaBoost算法的自适应在于前一个分类器产生的错误分类样本会被用来训练下一个分类器,从而提高分类准确率,可是对于噪声样本和异常样本比较敏感。
4. 支持向量机
支持向量机是用过构建一个或者多个高维的超平面来将样本数据进行划分,超平面即为样本之间的分类边界。
5. K近邻算法
基于k近邻的K个样本做为分析从而简化计算提高效率,K近邻算法分类器是基于距离计算的分类器。
集成学习方法
集成学习有许多集成模型,例如自助法、自助聚合(Bagging)、随机森林、提高法(Boosting)、 堆叠法(stacking) 以及许多其它的基础集成学习模型。
集成方法的思想是经过将这些个体学习器(个体学习器称为“基学习器”,基学习器也被称为弱学习器。)的偏置和/或方差结合起来,从而建立一个 强学习器(或 集成模型),从而得到更好的性能。
咱们能够用三种主要的旨在组合弱学习器的元算法:
自助聚合(Bagging),该方法一般考虑的是同质弱学习器,相互独立地并行学习这些弱学习器,并按照某种肯定性的平均过程将它们组合起来。
提高法(Boosting),该方法一般考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器(每一个基础模型都依赖于前面的模型),并按照某种肯定性的策略将它们组合起来。
堆叠法(Stacking),该方法一般考虑的是异质弱学习器,并行地学习它们,并经过训练一个 元模型 将它们组合起来,根据不一样弱模型的预测结果输出一个最终的预测结果。
很是粗略地说,咱们能够说Bagging的重点在于得到一个方差比其组成部分更小的集成模型,而Boosting和Stacking则将主要生成偏置比其组成部分更低的强模型(即便方差也能够被减少)。
十折交叉验证
因为深度学习模型通常须要较长的训练周期,若是硬件设备不容许建议选取留出法,若是须要追求精度可使用交叉验证的方法。十折交叉验证用来测试算法准确性。将数据集分红十份,轮流将其中九份做为训练数据,一份做为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。十次的结果的正确率(或差错率)的平均值做为对算法精度的估计,通常还须要进行屡次十折交叉验证(例如十次十折交叉验证),再求其均值,做为对算法准确性的估计。下面假设构建了十折交叉验证,训练获得十个CNN模型。
那么在十个CNN模型可使用以下方式进行集成:
对预测的结果的几率值进行平均,而后解码为具体字符
对预测的字符进行投票,获得最终字符
在深度学习中自己还有一些集成学习思路的作法,值得借鉴学习:
丢弃法Dropout
Snapshot
【1】数据读取:
https://mp.weixin.qq.com/s/IOlHIEIQhuIaubTeP4o39
【2】CNN模型:
https://mp.weixin.qq.com/s/JhFun5I_8Kjkbz6S4613Xw
【3】模型训练:
https://mp.weixin.qq.com/s/ZwfrIkHQMsHl_16xvCSejQ
【4】模型集成:
https://mp.weixin.qq.com/s/I41c-i-6y-pPdZOeiMM_0Q
【5】理论实践:
https://tianchi.aliyun.com/competition/entrance/531795/information
本文电子版教程 后台回复 cv实践指南 下载