智能图像识别初探系列(一)

CDA数据分析师 出品

1、何为识别?

想必各位机友都知道图像识别技术是人工智能的一个重要领域。随着计算机技术的迅速发展和科技的不断进步,图像识别技术已经在众多领域中获得了应用,其产生的目的是为了让计算机代替人类去处理大量的物理信息,并以此用来识别不一样模式下目标和对象的一门技术。算法

那么何为识别呢?所谓的图像识别,顾名思义,就是对图像作出各类处理、分析,最终识别咱们所要研究的目标。正如咱们在图中所看到的,咱们人类能识别出飞机、人、汽车、交通标志等等,而且咱们还能把收集到的信息作更多的处理。编程

而「计算机的图像识别」和「人类的图像识别」在原理上并无本质的区别,只是要处理的信息更加繁琐,而且计算机缺乏人类在感受与视觉差上的影响。其实和人类同样,咱们在识别某种物品的时候也不仅仅是凭借整个图像存储在脑海中的记忆来识别的,咱们识别图像都是依靠图像所具备的自己特征而先将这些图像分了类,而后经过各个类别所具备的特征将图像识别出来的,只是不少时候咱们没有意识到这一点。好比说咱们看到一朵玫瑰花,咱们是如何知道这是一朵玫瑰花的呢?咱们会根据小时候从父母、老师、书籍等等“历史数据标签”所得到的学习结果,当看到一朵花时,咱们就可以从它的特征中了解到是否带刺?是不是玫瑰花的花瓣形状?什么颜色?叶子的形状等等,进而识别出这朵花是不是玫瑰花,仍是说是其余种类的花朵。网络

计算机的图像识别发展到目前也存在不少不一样的技术方法,大体能够分为传统的图像识别方法和在其基础上融合神经网络算法的识别方式。神经网络图像识别技术是一种比较新型的图像识别技术,这里的神经网络是指人工神经网络,也就是说这种神经网络并非动物自己所具备的真正的神经网络,而是人类模仿动物神经网络后人工创造的。在神经网络图像识别技术中,以卷积神经网络为基础结合造成的深度学习模型可谓是人工智能领域的新星,在诸多人工智能领域,特别是图像识别领域取得了使人瞩目的进展。机器学习

2、人工智能的核心驱动力

上文屡次提到了人工智能和深度学习,那么在和你们分享图像识别技术前,咱们先来了解下学习智能图像识别所要具有的基本核心概念知识。分布式

人工智能的核心驱动力是机器学习。而深度学习是机器学习机器学习的一个特定分支。咱们要想充分理解深度学习,必须对机器学习的基本原理有深入的理解。性能

机器学习算法是一种可以从数据中学习的算法,而后咱们所谓的“学习”是什么意思呢?学习

Mitchell提供了一个简洁的定义:“对于某类任务T和性能度量P,一个计算机程序被认为能够从经验E中学习是指,经过经验E改进后,它在任务T上由性能度量P衡量的性能有所提高。”优化

经验E、任务T和性能度量P的定义范围很是宽广,例如你们所熟知的线性回归算法。编码

3、机器学习算法的局限性

咱们将机器学习算法定义为:经过经验以提升计算机程序在某些任务上性能的算法。若是咱们如今有样本X,要获得结果Y,就能够用以下的公式所表示:人工智能

虽然机器学习的研究来源于人工智能领域,可是机器学习的方法却应用于数据科学领域,所以咱们将机器学习看做是一种数学建模更合适。

机器学习的本质就是借助数学模型理解数据。当咱们给模型装上能够适应观测数据的可调参数时,“学习” 就开始了;此时的程序被认为具备从数据中 “学习” 的能力。一旦模型能够拟合旧的观测数据,那么它们就能够预测并解释新的观测数据。

可是简单的机器学习算法不能成功解决人工智能中的核心问题。譬如模式识别、语音识别等过程当中,传统的机器学习技术每每使用原始形式来处理天然数据,模型的学习能力收到很大的限制,构成一个模式识别或机器学习系统每每须要至关的专业知识来从原始数据中(如图像的像素值)提取特征,并转换成一个适当的内部表示。而深度学习则具备自动提取特征的能力,它是一种针对表示的学习。

深度学习能容许多个处理层组成复杂的计算模型,从而自动获取数据的特色和多个抽象类别。这类方法都大大地推进了语音识别、视觉识别物体、物体检测、药物发现和基因组学等领域的发展,经过使用神经网络算法,深度学习有能力发如今大的数据集的隐含的复杂结构。

在神经网络算法体系中,前馈神经网络有一种特殊的类型,即为卷积神经网络(CNN)。人们广泛认为这种前馈网络是更容易被训练而且具备更好的泛化能力,尤为是图像领域。卷积神经网络已经在计算机视觉领域被普遍采用。

4、图像识别流程

图像识别过程可分为图像处理和图像识别两个部分。

1. 图像处理

图像处理(imageProcessing)是利用计算机对图像进行分析,以达到所需的结果。

图像处理可分为「模拟图像处理」和「数字图像处理」,而图像处理通常指的是「数字图像处理」。 这种处理大多数是依赖于软件实现的。

其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像加强、图像复原、图像编码与压缩和图像分割。

1.1 图像采集

图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备通过采样数字化获得的图像,也包括一些动态图像,并能够将其转为数字图像,和文字、图形、声音一块儿存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

1.2 图像加强

图像在成像、采集、传输、复制等过程当中图像的质量或多或少会形成必定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像加强。

经过图像加强,能够减小图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像加强提升了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像加强不考虑图像降质的问题,加强后的图像更加赏欣悦目,也为后期的图像分析和图像理解奠基基础。

1.3 图像复原

图像复原也称图像恢复,因为在获取图像时环境噪声的影响、运动形成的图像模糊、光线的强弱等缘由使得图像模糊,为了提取比较清晰的图像须要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另外一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据创建图像。

1.4 图像编码与压缩

数字图像的显著特色是数据量庞大,须要占用至关大的存储空间。但基于计算机的网络带宽和的大容量存储器没法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。

目前,图像压缩编码已造成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。因为视频能够被看做是一幅幅不一样的但有紧密相关的静态图像的时间序列,所以动态视频的单帧图像压缩能够应用静态图像的压缩标准。图像编码压缩技术能够减小图像的冗余数据量和存储器容量、提升图像传输速度、缩短处理时间。

1.5 图像分割

图像分割是把图像分红一些互不重叠而又具备各自特征的子区域,每一区域是像素的一个连续集,这里的特性能够是图像的颜色、形状、灰度和纹理等。

图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,而后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法。因为采集图像时会受到各类条件的影响会是图像变得模糊、噪声干扰,使得图像分割会遇到困难。在实际的图像中需根据物体条件的不一样选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠基了基础。

2. 图像识别

根据不一样的条件作完了图像处理后,接着就是识别的过程了。图像识别将图像处理获得的图像进行「特征提取」和「特征分类」。

此时,咱们运用的方法就是上文所提到的神经网络算法(NeuralNetwork)。

神经网络系统是由大量的,同时也是很简单的处理单元(称为神经元),经过普遍地按照某种方式相互链接而造成的复杂网络系统。虽然每一个神经元的结构和功能十分简单,但由大量的神经元构成的网络系统的行为倒是丰富多彩和十分复杂的。它更像是反映了人脑功能的许多基本特征,是人脑神经网络系统的简化、抽象和模拟。

传统的机器学习算法(这里特指符号处理)更侧重于模拟人的逻辑思惟,而神经网络则侧重于模拟和实现人的认知过程当中的感知过程、形象思惟、分布式记忆和自学习自组织过程,与符号处理是一种互补的关系。因为神经网络具备非线性映射逼近、大规模并行分布式存储和综合优化处理、容错性强、独特的联想记忆及自组织、自适应和自学习能力,于是特别适合处理须要同时考虑许多因素和条件的问题以及信息不肯定性(模糊或不精确)问题。可是在实际应用中,神经网络算法对硬件要求较高,算法收敛速度慢、训练量大、训练时间长,且计算的思路倾向局部最优解,识别分类精度不稳定,难以适用于常常出现新模式的场合,于是对于神经网络的研究和深化也一直在不断的进行着。

上文咱们提到神经网络结构中的卷积神经网络被普遍运用与图像识别过程当中,那么它是如何在特征提取和特征分类中发挥做用的呢?咱们且看下回分解~

获取更多优质内容,可前往:疫情当下,脚步放慢了,也是提高本身的好时机,为将来蓄能——蓄势待发!

相关文章
相关标签/搜索