计算机视觉的任务不少,有图像分类、目标检测、语义分割、实例分割和全景分割等,那它们的区别是什么呢?
一、Image Classification(图像分类)
图像分类(下图左)就是对图像判断出所属的分类,好比在学习分类中数据集有人(person)、羊(sheep)、狗(dog)和猫(cat)四种,图像分类要求给定一个图片输出图片里含有哪些分类,好比下图的例子是含有person、sheep和dog三种。git
二、Object detection(目标检测)
目标检测(上图右)简单来讲就是图片里面有什么?分别在哪里?(把它们用矩形框框住)
目前经常使用的目标检测算法有Faster R-CNN和基于YOLO的目标检测的算法
三、semantic segmentation(语义分割)
一般意义上的目标分割指的就是语义分割
语义分割(下图左)就是须要区分到图中每一点像素点,而不只仅是矩形框框住了。可是同一物体的不一样实例不须要单独分割出来。对下图左,标注为人,羊,狗,草地。而不须要羊1,羊2,羊3,羊4,羊5等。算法
四、Instance segmentation(实例分割)
实例分割(上图右)其实就是目标检测和语义分割的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割须要标注出图上同一物体的不一样个体(羊1,羊2,羊3...)
目前经常使用的实例分割算法是Mask R-CNN。
Mask R-CNN 经过向 Faster R-CNN 添加一个分支来进行像素级分割,该分支输出一个二进制掩码,该掩码表示给定像素是否为目标对象的一部分:该分支是基于卷积神经网络特征映射的全卷积网络。将给定的卷积神经网络特征映射做为输入,输出为一个矩阵,其中像素属于该对象的全部位置用 1 表示,其余位置则用 0 表示,这就是二进制掩码。
一旦生成这些掩码, Mask R-CNN 将 RoIAlign 与来自 Faster R-CNN 的分类和边界框相结合,以便进行精确的分割:
五、Panoramic segmentation(全景分割)
全景分割是语义分割和实例分割的结合。跟实例分割不一样的是:实例分割只对图像中的object进行检测,并对检测到的object进行分割,而全景分割是对图中的全部物体包括背景都要进行检测和分割。api
转自:https://blog.csdn.net/Gerwels_JI/article/details/82990189markdown
后期我会写CV综述,此处留坑占位!
也会对object segmentation的方法进行总结,占坑!网络
图像理解领域中的object segmentation方向包括了:image classification、object localization、object detection、semantic segmentation、instance-level segmentation。分类复杂度依次递增,分类详细程度依次递增。架构
计算机视觉(CV)一直是目前深度学习领域最热的研究领域,其是一种交叉学科包括计算机科学(computer science / (Graphics, Algorithms, Theory, Systems, Architecture)、数学 (Information Retrieval, Machine Learning)、工程学(Robotics, Speech, NLP, Image Processing)、物理(Optics)、生物学 (Neuroscience), and 神经科学 (Cognitive Science),因为计算机视觉表示了对视觉环境的理解,加上其学科交叉性,众多科学家认为计算机视觉的发展能够为实现理想的人工智能铺路。app
对于问题:什么才是计算机视觉?如下有三个不一样的教科书式计算机视觉定义:框架
“the construction of explicit, meaningful descriptions of physical objects from images” (Ballard & Brown, 1982)dom
“computing properties of the 3D world from one or more digital images” (Trucco & Verri, 1998)性能
“to make useful decisions about real physical objects and scenes based on sensed images” (Sockman & Shapiro, 2001)
那么为何要研究计算机视觉呢?最简单的答案就是其能够将研究快速有效的应用到现实场景中,下面列举了几个CV应用的场景:
笔者最近完成了斯坦福的CS231课程【1】,课程中将卷积神经网络用在视觉识别任务中,包括图像分类,定位和检测,尤为是深度学习技术的发展极大的提升了这些任务的精度,完成这个课程后,笔者想和你们分享5个最具影响力的计算机视觉技术。
图像分类任务描述以下:给定一系列标记为单标签的图像,但愿成功预测出未经标记的新的数据的标签。与这个任务相联系的是更多的挑战:包括:角度多样性, scale多样性, 额外新类的变化, 图像的损坏, 先验条件, 和背景的变化。
so,如何才能设计一个算法分类出不一样的类,计算机视觉研究者提出以数据为驱动的解决方法,令计算机从一些已经有类别标记的图像中学习到图像的视觉表示。
而在这个算法中最经常使用的就是卷积神经网络了,Convolutional Neural Networks (CNNs)。输入图像到CNN网络中后,CNN并非直接对整个图像作计算,而是建立一个滑动机制,假设先输入图像中10*10的pixel,以相乘的计算方式计算,乘数部分红为卷积核,而后从左到右进行滑动,计算接下来的10*10pixel,这就是CNN中的滑动窗口计算机制。
输入数据输入卷积层后,卷积层中卷积核仅关注当前部分和它附近的部分。总体的卷积网络趋向于更窄以便于在相同参数量的状况下搭建更深的网络。除了卷积层以外,在分类中常使用的还有池化层pooling layer,最多见的是最大池化 Max pooling,假设maxpooling的pooling核是2,maxpooling 的工做机制是取2x2大小的像素块中的最大值代替这个像素块。
图像分类最典型的数据集是imagenet,一个包含120万张,1000类的大型图像数据集。以此数据集为基础,衍生了许多典型的深度学习经典网络:
图像分类任务虽然简单,应用范围也有限,可是其是计算视觉的基础,图像分类上的成功代表深度学习网络具备学习并理解图像的能力。目前计算机视觉的其余任务使用的basemodel都是在image classification上取得成功的网络结构。所以,能够把图像分类视为深度学习实现人工智能的第一步。
注:貌似16年日后,基本没有革新性质的网络结构出现了,/手动笑哭/。
object detection的任务是检测到图像中的目标并分类出目标种类,如上图所示,检测出车并框住,并给出框中目标的置信度,固然上图并非目前深度学习最好的结构,图中有两个漏检测的目标。
目标检测与图像分类,目标定位不一样的地方在于目标检测是同时应用分类和定位技术到图像中的多个目标,此类任务的label也更复杂,不只要知道目标的位置(bounding box)还要知道目标的类别,并且为了检测到比较小的目标,提升检测精度,此类任务的batch size每每很小。
目标检测的技术实现相对复杂,可是应用场景很是多,好比统计:统计人、车、花朵或者微生物的数量是现实生活中各类不一样类型的使用图形信息的系统最普遍的需求;图像检索,根据图像检测图像;卫星图像分析;安防场景等等。
目前深度学习在这方面的工做有不少:
以上这些都是近几年来最典型的目标检测成果,这些工做提供了深度学习技术在目标检测上的应用形式以及研究方向,目前的大部分较好的结果都是基于这些工做改进而来。
目标追踪便是在一个给定的场景中,follow一个或者多个目标。传统上,目标追踪都是应用在视频或者实时场景交互,好比观测者追踪一个初始的目标。目前来说,使用最典型的场景就是自动驾驶了。
目标追踪能够分为两类:一类是生成式方法,另外一类是判别式方法。生成方法使用生成模型来描述表观特征并最小化重建偏差以搜索目标,如PCA。而判别式方法能够用来区分物体和背景,其性能更稳健,并逐渐成为跟踪的主要方法。判别法也被称为跟踪检测,深度学习属于这一类别。为了经过检测实现跟踪,咱们检测全部帧的候选对象,并使用深度学习从候选对象中识别想要的对象。有两种可使用的基本网络模型:堆叠自动编码器(SAE)和卷积神经网络(CNN)。
使用SAE跟踪任务的最受欢迎的深度网络是Deep Learning Tracker,它提出线下预训练和在线微调网络,工做流程以下:
因为其在图像分类和目标检测方面的优点,CNN已成为计算机视觉和视觉跟踪的主流深度模型。通常来讲,大规模的CNN既能够做为分类器也能够做为跟踪器来训练。 2种有表明性的基于CNN的跟踪算法是全卷积网络跟踪器(FCNT)和多域CNN(MD Net)。
FCNT成功地分析和利用了VGG模型的特征图,这是一个预先训练好的ImageNet,并得出如下结论:
所以,FCNT设计了特征选择网络以在VGG网络的conv4-3和conv5-3层上选择最相关的特征图。而后为了不嘈杂的过拟合,它还为两层单独选择的特征映射设计了额外的两个通道(称为SNet和GNet)。 GNet捕获对象的类别信息,而SNet将该对象从具备类似外观的背景中区分出来。两个网络都使用第一帧中给定的边界框进行初始化,以获取对象的热图,而对于新帧,将裁剪并传播最后一帧中以对象位置为中心的感兴趣区域(ROI)。最后,经过SNet和GNet,分类器获取两个预测的热图,跟踪器根据是否存在干扰,决定使用哪一个热图来生成最终的跟踪结果。 FCNT的pipline以下所示。
与FCNT的想法不一样,MD Net使用视频的全部序列来跟踪它们的移动。上述网络使用不相关的图像数据来减小跟踪数据的训练需求,而且这种想法与跟踪有一些误差。该视频中的一个类的对象能够是另外一个视频中的背景,所以MD Net提出了多域的思想来独立地区分每一个域中的对象和背景。而一个域表示一组包含相同类型对象的视频。
以下图所示,MD Net分为两部分:域特定层的共享层和K分支。每一个分支包含一个softmax损失的二进制分类层,用于区分每一个域中的对象和背景,共享层与全部域共享以确保通常表示。
近年来,深度学习研究人员尝试了不一样的方法来适应视觉追踪任务的特征。有许多方向已经被探索:应用其余网络模型,如Recurrent Neural Net和Deep Belief Net,设计网络结构以适应视频处理和端到端学习,优化流程,结构和参数,或者甚至将深度学习与计算机视觉的传统方法或其余领域的方法(如语言处理和语音识别)相结合。
计算机视觉的核心是分割过程,它将整个图像分红像素分组,而后能够对其进行标记和分类。特别地,语义分割试图在语义上理解图像中每一个像素的角色(例如,它是汽车,摩托车仍是其余类型的类)。例如,在上图中,除了识别人,道路,汽车,树木等以外,咱们还必须划定每一个物体的边界。所以,与分类不一样,咱们须要从咱们的模型进行像素级的预测。
与其余计算机视觉任务同样,CNN在分割问题上取得了巨大成功。最流行的初始方法之一是经过滑动窗口进行patches分类,其中每一个像素使用其周围的图像pathes分别分类。可是,这在计算上效率很是低,由于咱们不重用重叠patches之间的共享功能。
加州大学伯克利分校的研究员提出了全卷积网络(FCN),它在没有任何彻底链接层的状况下推广端到端CNN体系结构进行密集预测。这容许针对任何尺寸的图像生成分割图,而且与patches分类方法相比也快得多。几乎全部后续的语义分割方法都采用了这种范式。
然而,仍然存在一个问题:原始图像分辨率的卷积将很是昂贵。为了解决这个问题,FCN在网络内部使用下采样和上采样。下采样层被称为条带卷积,而上采样层被称为转置卷积。
尽管有上采样/下采样层,但因为池中的信息丢失,FCN会生成粗分割图。 SegNet是一种比使用最大池和编码器 - 解码器框架的FCN更高效的内存架构。在SegNet中,从更高分辨率的特征映射中引入了快捷/跳过链接,以改善上采样/下采样的粗糙度。
最近的语义分割研究都严重依赖彻底卷积网络,如
空洞卷积 https://arxiv.org/pdf/1511.07122.pdf,
DeepLab https://arxiv.org/pdf/1412.7062.pdf
RefineNet https://arxiv.org/pdf/1611.06612.pdf。
除了语义分段以外,实例分段还将不一样的实例分类,例如用5种不一样颜色标记5辆汽车。在分类中,一般有一个图像包含单个对象做为焦点,任务是说出该图像是什么。但为了分割实例,咱们须要执行更复杂的任务。咱们看到多个重叠物体和不一样背景的复杂景点,咱们不只分类这些不一样的物体,并且还肯定它们的边界,差别和彼此之间的关系!
到目前为止,咱们已经看到了如何以许多有趣的方式使用CNN特征,以便用bounding box框住图像中的不一样对象。咱们能够扩展这种技术来定位每一个对象的精确像素,而不只仅是边界框吗?固然能够, Facebook AI使用称为Mask R-CNN的体系结构研究了此实例分割问题。
就像Fast R-CNN和更快的R-CNN同样,Mask R-CNN的底层直觉很直观鉴于更快的R-CNN在物体检测方面的工做如此出色,咱们是否能够将其扩展到进行像素级分割?
Mask R-CNN经过向Faster R-CNN添加分支来完成此操做,该分支输出一个二进制掩码,该掩码表示给定像素是否为对象的一部分。该分支是基于CNN特征映射的彻底卷积网络。给定CNN特征映射做为输入,网络输出一个矩阵,其中像素属于该对象的全部位置均为1,而其余位置为0(这称为二进制掩码)。
另外,当在原始Faster R-CNN架构上运行时没有修改时,由RoIPool(感兴趣区域)选择的特征映射区域与原始图像的区域略微错开。因为图像分割须要像素级别的特异性,与边界框不一样,这天然会致使不许确。 Mask R-CNN经过调整RoIPool使用称为Roialign(感兴趣区域对齐)的方法更精确地对齐来解决此问题。本质上,RoIAlign使用双线性插值来避免舍入错误,这会致使检测和分割不许确。
一旦生成这些蒙版,Mask R-CNN将它们与来自Faster R-CNN的分类和边界框相结合,以生成如此精确的精确分割:
这5种主要的计算机视觉技术能够帮助计算机从单个或一系列图像中提取,分析和理解有用的信息。还有许多其余我还没有涉及的高级技术,包括样式转换,着色,动做识别,3D对象,人体姿式估计等等。事实上,计算机视觉领域的成本过高,没法深刻报道,我鼓励您进一步探索,不管是经过在线课程,博客教程仍是正式文档。我强烈推荐CS231n做为初学者,由于您将学习实施,训练和调试本身的神经网络。做为奖励,您能够从个人GitHub存储库中获取全部演讲幻灯片和分配指南。我但愿它会引导你改变如何看待这个世界!