山世光:从视觉计算近期进展“管窥”AI之ABCDE

本文由 「AI前线」原创,原文连接: 山世光:从视觉计算近期进展“管窥”AI之ABCDE
做者|山世光
出处|AICon演讲整理
编辑|Emily

你们好!很是高兴有机会来到极客邦AICon大会跟你们作一次分享,刚才泰稳提到你们都说人工智能,事实上在几年前正好是相反的,我是作计算机视觉的,咱们一般都不称本身是作人工智能的,如今是“被”人工智能了。算法


可是从广义的角度来说,人工智能有很是普遍的话题,计算机视觉就是其中之一。所谓的计算机视觉,其实就是但愿机器人可以像人同样去看,经过视觉的方式去了解周边有什么样的东西,以及正在发生什么样的事情。数据库


因此今天,我从视觉智能的角度,来跟你们分享一下这一领域的最新进展及其背后技术,还将讨论如今所流行的技术对于整我的工智能将来的发展是否足够。安全



开门见山,咱们知道图像和视频,本质上是经过相机或者是摄像机对周围世界进行采样的结果。服务器

那么计算机视觉,便是对摄像头、摄像机捕捉到的视频内容进行分析的技术,这一过程十分相似于人类的眼睛探索世界的过程,眼睛是经过光的感应对世界光进行采样、再对内容进行分析。网络

一幅数字图像到计算机里面变成有不少像素组成的数据矩阵,每个像素有红绿蓝三个分样 。计算机视觉,就是从W×H大小的图像里面分析图像的 内容,包括边界、区域、事件、意义等等。机器学习

咱们人是如何看见的呢?其实咱们人类的“看”和“见”是两个不一样的过程。“看”就像摄像机拍照同样,是眼睛经过视网膜的成像完成的:视网膜有大量的很是复杂、稠密的感光细胞,这些感光细胞能够对物体表面反射红绿蓝三个份量测量它的强度,而“见”,则是眼睛采集到信号后,大脑对这些信号进行分析的过程,这部分工做是在咱们的视皮层上完成的,大概有两个通路,一个是what通路,一个是where通路。分布式

咱们进一步细看,人的大脑是由大约860亿量级的神经细胞组成, 这些神经细胞在大脑中又分红了不一样的脑区,脑区又分红了不一样神经细胞的互联。对图像内容的理解是在视皮层处理完成的,而此过程则涉及到多个脑区,涉及到两个通路 。函数

咱们来仔细看看其中每个神经细胞在作什么。咱们在大学和高中的时候都学过一点点神经系统知识,一个典型的神经细胞,特别是感受神经细胞,它一般来讲会有这样一个结构:有一个像树根同样的树突组成,这些树突链接到细胞体,细胞体上面还有一个轴突,就像树干同样,树干的顶端有各类各样的神经末梢,一个神经细胞会与数千个其余的神经细胞相连,而这些神经细胞与树突的神经末梢相连,以与外界传递信息。而这个神经细胞在把这些信息聚集以后作决策,或者是支持某一个决定,或者是反对,或者是弃权。布局


若是支持本身兴趣的决策会发电,那么若是与这个神经细胞轴突相连以接收到信号,会发生什么呢?在上世纪六十年代,1959年先后两位神经科学家作了实验,在一只小猫的初级视觉皮层,把它的视网膜感光细胞所接收到的光信号,传递到神经视皮层区域最初的细胞上,科学家找了其中一个神经细胞,而后把电机插到神经细胞的轴突上去测量神经细胞在什么状况下会放电,他们发现当给这只小猫看一个特定的画面时,该神经细胞会放电。那么,这个画面是什么呢?是一个黑色的背景上面有一个斜向45度的亮条,当这只小猫看这个图案的时候该神经细胞会放电,若是你给它一个水平或者是竖直的亮条该细胞就不会放电,或者不在这个位置上也不会放电。学习


这个实验具备很是大的开创性,你们可能都想象不到,在1980年的时候有人以这个工做为基础得到了诺贝尔奖。


其实它告诉咱们,咱们大脑里面每个神经细胞其实都有一个特定的功能,好比像刚才提到的神经细胞是专门检测斜向45度边缘的,然后来,他们慢慢发现,还有其余的神经细胞能够检测其余类型的信号。推而广之,其实咱们能够想象在咱们的大脑里面甚至会存在神经细胞对几个东西感兴趣,进一步推广咱们的大脑里面也许存在祖母细胞,这个理论被称之为祖母细胞理论,固然这个理论最终被证实是不完备的,由于显然不会只有一个细胞对你的祖母感兴趣,可能有一群对你的祖母感兴趣,这是一个更加分布式的系统。不然的话当这个神经细胞挂掉的时候,你就失去了对你祖母全部的记忆,这显然不会是一个好的系统。


这样的结构对咱们设计人工神经网络带来了怎样的启发呢?事实上,深度学习,实际上是上世纪八十年代中后期多层神经网络的复兴。

在上世纪八十年代,甚至更早的时候,计算机科学家就已经提出一些单神经元人工计算模型,一个典型的人工神经元计算模型,与刚才提到的人脑中真正的神经元很是相似,也是一个神经细胞接收若干个输入、对这些输入进行加权处理、并最终作出反应的过程 。以这个神经细胞为例,有N个不一样的输入给它,每个输入会给它一个权重,经过加权求和的方式获得一个结果,再判断这个结果 是否大于某一个设定好的阈值,若是大于阈值就放电,不然就放电,固然咱们会作一个非线性函数的处理,来对加权求和的结果作一个非线性处理。

我刚才提到有大量的神经细胞进行互联,那么互联的时候它们在作什么呢?首先来看一下人或者是生物的神经系统里面,有一个层级感觉野的概念。

也就是说一个神经细胞会站在其余大量神经细胞的基础上作决策,这就很是像咱们社会从我的到家庭、到社区、乡镇、县、市、省、中央这样的层级的机构,每一级往上走的时候,金字塔越上层的节点视野越大,他们完成的任务也更复杂。事实上在神经科学里面不一样的颜色表明了这个神经细胞视野的大小,红色是很是小的,到蓝色的时候大概是七度的视野。

也就是说,大脑里面的每个神经细胞可以看到画面的大小是不一样的,反应到图像上去就是不一样尺寸的像素区域 。在这样一个通路上,越靠近眼睛的神经细胞,它的感觉野就越小,越往深层次走它的感觉野越大,它完成的功能从最开始边缘的亮点到愈来愈复杂的图形,甚至到最后咱们能够找到一些神经细胞检测车轮或者是眼睛等部件。

咱们对应到计算模型上去,刚才提到单一的神经细胞完成加权求和、以及非线性激活,那么若是把这些单一的神经细胞进行层级互联,层层向上传递,最终其实就是咱们所谓的深度学习的结构。而深度学习中的“深度”,便是指链接的层次多。

经过这样一种方式,咱们获得一个多层神经网络, 把数据矩阵输入到网络处理之后获得咱们指望获得的结果,这一过程,也就是咱们所谓的“黑盒子”深度学习。

而在计算机视觉领域, 最典型的深度学习方法就是卷积神经网络。2012年,卷积神经网络在计算机视觉领域的众多问题上都取得了很是好的效果, 其设计很是符合刚才我讲的层级提取过程。上图给出了卷积神经网络的结构,其过程包括:卷积、采样、非线性激活、卷积、下采样、以及全链接。其中,卷积其实就是加权求和的过程,而在任意两层每个神经细胞之间都有一个全链接的过程。

在图像领域,所谓的卷积是什么呢?其实就是刚才所说的加权求和的过程。在进行图像处理或者图像分析时,设计一个滤波器对应权重矩阵,将该矩阵放在输入图像上,与对应位置的像素加权求和,这个过程咱们定义为卷积。本质上,卷积就是滤波器,而其在最底层所完成的功能,就是以前提到的那只小猫的神经细胞所作的事情--边缘提取,咱们称之为局部特征提取器。

具体的计算过程以下:输入一张图像,因为具有红绿蓝三通道,所以使用三个5x5的滤波器,也即包含5x5×3,共75个值,提取特征后获得了一个激活图。

结合前一张PPT讲的内容,这一层结束获得了28×28×6的激活图。

而深度学习中所谓的“深度”,是经过分层来得到的。获得28x28x6的激活图后,在下一层将滤波器换成5x5x6,重复前序操做。经过不断重复此过程,最终造成一个卷积神经网络。

其实这里卷积的过程,与过去在图像处理和图像理解领域使用的滤波器相似。那么,它和过去的不一样是什么呢?

在过去的特征提取时,采用的是人工设计的权重,咱们对输入波形的变化进行调制,获得了输出的波形,这一过程当中使用的每个权重系数,都是人为根据正余旋波计算出来的。

而卷积神经网络中,5×5×3中的每个权重再也不是人为设计出来,而是经过神经网络的训练学习而来的,这是和过去很是大的不一样。


虽然在底层,咱们学出来的权重系数和从前人工设计出的权重系数是相似的。然而,因为权重造成的模式愈来愈复杂,已再也不是过去人工的方式能够设计出来的。这也是过去人工设计方式极大的缺陷,即,很难设计出很是复杂的权重模式。

事实上,卷积神经网络并非新鲜的事物,早已被应用于美国邮政编码的手写数字识别系统,并取得了很是好的结果。1998年,LeCun在手写数字识别的基础上,进一步作英文字母的识别,在这篇文章里,卷积神经网络这个概念被提出来。

咱们简单回顾一下1980年的工做,它的计算很是相似于如今卷积的操做。

到1989年的工做作数字识别,这里面已经采用了如今普遍采用的多个卷积和层级操做的方式。

直到1998年,卷积神经网络概念被正式提出来,LeCun设计了一个包含两个卷积层在内的总计五层的网络,它在字符识别领域取得了很是好的效果。

接下来介绍2012年带来日新月异效果的AlexNet,它须要学习的权重数很是多,到了6000万个参数。然而咱们仍对这两位学生充满了敬意。

咱们为何要很是敬佩这两个学生?由于此前作机器学习的人一般不认为这样复杂的系统是好的,有6000万个参数要学习的系统是极其复杂的,从机器学习的角度来说,是很是容易陷入到过学习状态的,每每使得在计算机上好像效果很是好,可是一旦把这样的模型用到其余测试样本上去,效果就会变得很是差。


因此,在当时他们勇于尝试如此复杂的模型,并且要学习如此多的参数,意味着须要很是长的时间才能完成学习过程。实际上这两位博士生若是是在今天作这样一个学习,只须要把图像的上半部分扔给一块GPU,下半部分扔给另一块GPU,而后再结合起来就能够了,可是当时GPU的计算能力尚未那么强大。

从1989年到2015年,神经网络经历了一个层数由少至多、层级由浅至深的过程,整体来讲它的复杂度愈来愈高,事实上这也给机器学习领域带来了不少新的挑战。


由于过去机器学习领域对于复杂模型的理论是不足的,过去甚至认为,在处理一个具体问题时,应尽量采用相对简单的模型,然而事实证实,相对复杂的模型如今看来也有着很是好的效果。

从2012年以后出现了很是多新的模块,包括对卷积层进行加强的方法,固然咱们华人作了更多的贡献,在不一样的计算机视觉任务上都取得了很是好的效果。

这样一些新的神经网络给计算机视觉带来什么样新的变化呢?

好比说在图像分类任务上,2011年是26%的错误率,2012年用八层的卷积神经网络错误率降低到16%,到如今大概是2%左右的错误率。在五年左右的时间错误率降低到了1/10。

在物体检测任务上,例如把照片中的人、车等两百多种物体找出来,该任务在2013年没有用深度学习的正确率是23%,2017年深度学习在一样的任务上作到了73%的正确率,大概有三倍多正确率的提高。

在更多的问题上,例如人脸检测、车辆行人检测等等任务上,咱们都取得了很是大的进步。

咱们的技术能够实现对行人车辆的检测、跟踪、属性分析等,这也是所谓“天眼系统”所采用的技术。

咱们的无人机视觉技术,在500米高空上拍地面上的车辆,用检测框的颜色来区分车辆的类型,咱们能够准确的检测出桥上大量的车辆。

咱们但愿可以分割出图片中哪一块是路面、树木、天空,在深度学习极大的促进下,正确率如今提高到86.9%。

这个任务咱们称之为看图说话。


给机器一张照片,生成一段话来描述照片里面的内容,这件事情在2015年以前几乎没有人作,几乎看不到文章,可是在2015年以后出现了不少文章在作这件事情。


在某些数据集上,甚至机器生成的句子比人写出来的还要好,会让你无从判断究竟是机器生成的、仍是人写成的。它实现了计算机视觉图像内容和天然语言之间的联姻,使得咱们能够了解或者认识图像、声音、语言等等不一样的信息,赋予咱们在一样语义空间里面对他们进行理解的可能性。

相似的问题是视觉问答,给一张照片之后问一个问题,系统自动回答盘子里面有什么菜、或者在画面里面谁戴了眼镜等等这样一些问题,这也能够和语言进行结合。

固然采用的方法是以语言为基础的,机器翻译也受到了深度学习极大的影响,2016年、2017年对机器翻译带来的提高是很是大的,这个问题和语言领域的进展是分不开的。

还有一个很是有意思的应用,对图像风格的转换。

好比说咱们把一我的的头发变成黑色,而后再把它准确地变回来,经过使用生成式对抗网络,在不少问题上都取得了很是好的效果。左边是系统输入的照片,右边用该方法生成出来的,能够看出,不管是加刘海、仍是改变头发的颜色,咱们均可以作到以假乱真。

甚至能够实现对照片风格的转化,好比说把莫奈的油画变成看起来像照片,再好比把马变成斑马,甚至把一幅冬天拍的照片变成夏天拍的照片,这种转换跟深度学习是直接相关的。



着重强调一下,还有一个受到极大影响或者是极大促进的领域,就是人脸识别。

上图描述了人脸识别的快速流程,本质上就是要比较两张照片里面的人是否是同一我的。


过去咱们大概采用这样几个步骤:第一步先找到脸在哪里,第二步找到面部的五官,咱们找到经过预处理或者对齐找到标准照,眼睛和鼻子、嘴尽量放在合适的位置,咱们把这样一个照片变成一个向量,接下来计算上下两幅照片对应向量Y1和Y2的类似度,若是类似度足够大咱们认为是同一我的,不然咱们认为不是同一我的,这是人脸识别典型的流程。



在深度学习出来以前,人脸识别领域一直像是闭关锁国的小国家。作人脸识别的人基本上不看其余作计算机视觉的方法,由于那些方法在人脸识别上很差用,因此咱们都是本身作本身的方法、特征和分类器。可是深度学习来了以后,在各个模块上全面的采用相对更加通用的深度学习,特别是卷积神经网络。


咱们回过头来看一下人脸识别的技术。

在深度学习以前大概有三代技术:第一代技术就是人去设计一些特征;第二代是认为人设计的很差,咱们找一个线性变换,在一维变换中,你们想象就是y=Kx,而对于二维图像,W就变成了矩阵,y=Wx,所谓的变换就是咱们在图像空间里面找一个W变换,使得在这个空间里面不一样人的照片可以分的开,同一我的的照片可以聚到一块儿,这是咱们找W的目标设计。


咱们发现第二代的技术也不够好,后来咱们又回过头来,人仍是要设计特征提取器,相似于卷积或者咱们称之为滤波器。而后,在人为特征提取的基础上,再作第二步线性变换,试图找到一个低维的空间,使得同一我的的照片可以聚在一块儿,同时不一样人的能够分开。

深度学习出现以后,变成了直接学习从输入空间到低纬特征空间的变换。咱们再回顾一下这四类不一样的方法,第一代其实是人做为专家设计出来知识驱动的方法;第二代是数据驱动的方法,经过数据来学习一个W变换矩阵;第三个代是结合了前两代,首先人设计一些特征,在此基础上又经过数据驱动来学习W变换;第四代是彻底数据驱动的方法。


深度学习在图像分类任务上取得很是好的结果以后,FaceBook以及谷歌经过对大量数据的学习,都把卷积神经网络应用到人脸识别的特征提取上,你们能够看到谷歌采用了800万人2亿张照片的数据库进行训练,在LFW数据集上取得了超过人类的识别精度。

若是咱们回过头来看过去的技术,特别是第三代技术,咱们采用了人工设计的局部特征,特别称之为滤波器,过去通常采用5×8总计40个不一样的卷积核,获得如左图所示的滤波器,而后对图像进行卷积,卷积结束以后咱们再作融合的方式,左下的图像显示的就是权重信息,是人工设计出来的。


而右图展现了经过训练的方式学习出来的权重信息,咱们能够看到,深度学习在底层学习到的滤波器,与人工设计的滤波器是很是类似的,可是到上层的滤波器,则含有了愈来愈多的语义信息,使得咱们可以更好的提取有效特征。

深度学习给咱们带来的进步,并不只仅表如今特征提取上,过去,咱们的特征定位必定要有预处理的步骤,如今咱们发现人为设计可能不够好,因此通通交给机器本身去学习,学习如何在人脸检测的基础上直接进行特征提取。

今年有一个工做,甚至不须要再定位五个(或者多个)关键特征点,把人脸检测框中的人脸直接输入给神经网络进行学习,这样获得的效果反而更好。

你们如今深入体会到人脸识别在平常生活当中的应用,若是你们有iPhoneX的话就知道它的人脸很是好用,它的错误率是万分之一,由于它是最简单的人脸识别的应用。

为何说它是最简单的人脸识别应用呢?由于它的传感器和注册方式是在人脸识别里面最容易的场景,它的传感器是红绿蓝,用来作照片的防伪和防攻击等等都相对比较容易。


事实上人脸识别有不一样的应用场景,大概有三大类十几种小的不一样的场景。

好比说在1:1的场景下,判断张三是否是张三这样一个问题上,也有不一样的应用状况。

好比说咱们坐高铁的时候拿身份证验证,大概能够作到一万我的冒充你,有一我的可以成功,不一样的条件下正确率是不同的。甚至包括表面加了网纹,咱们将网纹去掉以后跟本人相比是否是同一我的,在这些方面都取得了很好的效果。再好比,拿一张照片看看这我的跟哪些人最像,如今的精度跟过去相比也有了很是大的提升,


固然在不一样的场景下成熟度有很是大的差异,最难的场景实际上是1:N+1,我不知道他是否是一万人里面的一个,有多是,有可能不是,在不一样的场景下成熟度很不同。可是若是在一个单位的门禁和考勤场景下,这个技术是很是成熟的。而若是是在公安的黑名单监控场景下,虽然从识别率的角度来说没有那么高,但至少它是可用的。

给你们看一个例子,这是中科视拓的人脸识别闸机,一个单位几千人不用带门卡便可以完成考勤和刷脸进门功能,2017年咱们的人脸识别签到系统,已经成功应用到五个两三千人的会议中。尽管如此,人脸识别还有很是多值得关注的话题。

总结一下,以计算机视觉领域为例,过去咱们经过ABC,A就是算法,B是大数据,以及C--高强度的计算能力,使得咱们有了愈来愈好的精度。

也就是说,咱们在方法论上或者说是在研究范式的角度,在过去几年中,经历了从人工设计到有监督大数据驱动的转变。

这个方法论在计算机视觉问题上,应该说推进了一大类非线性映射问题的解决。如图所示,用一个数据矩阵x做为输入,咱们的目标是要学一个F函数,从而获得咱们所指望的y,这个y能够是一个类别,也能够是分割的结果、或者是年龄、或者是某种以向量表达的值。


无论是哪类问题,只要问题能建模,并且有大量的x和y的数据对、或者是训练集,这类问题如今都有但愿解决的很是好。


其实深度学习给咱们带来更多的是思想的变迁,包括解决非线性问题的方法,包括从过去的人工设计特征到如今的数据驱动学习。


从过去不少时候是分而治之,把一个大的问题转换成小的问题,再对小的问题逐个解决;到如今试图减小人在此过程当中的干预,变成端到端的学习。还有一个很是重要的思想变迁,就是数据智能,咱们从过去重视算法到如今愈来愈重视数据,这对于计算机视觉领域的影响是很是巨大的。

咱们再看一个物体检测的例子,咱们称之为狗屎检测的例子,这是一个很是真实的案例,如今咱们正在作这个项目。

有一个客户他们作了巡逻机器人在小区里面巡逻,业主说它没有用,后来终于找到一个痛点的需求就是检测狗屎,以便通知保洁赶忙清理掉,若是没有深度学习,咱们大概的作法是这样的:



首先收集不少照片,固然也须要作标注;第二步咱们要花不少时间看它长什么样,它有什么颜色,咱们绞尽脑汁的设计一些特征,后面用数据驱动的方法作验证。若是这个特征不够好,咱们再回到第二步反复的作。



这是过去作人脸检测和行为检测的方法论,大概花了十年左右的时间,还算作的不错,这是一个很是重的任务。若是狗屎检测须要一年,塑料瓶子检测一年,咱们就须要很长的时间。


而深度学习时代,咱们大概是这样作的:



第一步是花一些时间收集大量的照片,你们说你为何能够收集这么多,由于咱们有数据众包。咱们能够很是快速收集大量的照片,咱们花很是短的时间挑选深度学习的模型,接下来就交给机器作参数模型的优化。

幸运的话,若是是很是成熟的高手,一旦拿到数据以后,最快一两个星期就有很是不错的结果出来,因此这个时间就缩短到了两个月。

后深度学习时代上述的作法是否是足够呢?咱们认为实际上是不够的。咱们会看到有大量各类不一样的物体作检测,垃圾的种类又很是多。若是咱们每一种都要这样作的话,对作AI算法的人来讲是各类各样的悲剧。

也许咱们花几分钟的时间简单到互联网上搜集照片出来,咱们但愿这样一个过程在几个星期或者几个小时里面完成,固然这个是否是够呢?


咱们认为还不够,咱们看看人,人踩一次狗屎以后,大概踩第二的次可能性很是小了,咱们在几秒钟的时间内完成这样一个过程。

因此对人来讲就是ABCD,A和C合起来是大脑,B称之为书里面不少知识,咱们也须要数据,固然这个数据确定不是大数据。若是咱们真的看人的大脑,咱们会发现人的大脑其实也是须要大数据训练的,只不过大数据训练早已由咱们的祖先帮助你们完成了,咱们出生以后的大脑实际上是进化后的大脑,咱们个体在成长发育过程中,则是利用了后天积累的小数据和知识,对先天进化脑进行调整。


因此这个过程,从方法论的角度来说,从监督大数据驱动方法论出发,咱们最终造成的,仍是把数据和知识联合起来驱动的方法论。

那么,计算机视觉是一个已经解决了的问题吗?


咱们认为若是只是目前靠深度学习来解决,这样一种方式是远远不够的,好比说计算机视觉不少的问题,检测、分类、分割等等,这些问题都是依赖于大数据的。你们回忆一下刚才讲的目标检测,咱们检测精度也没有到90%,事实上咱们有数万类的物体要检测,这里面存在一个很是严重的问题。若是咱们靠数据来解决,中国人多,咱们十我的一组,作一个物体的检测也能够解决这个问题,但其实这是很是不优雅,也是不可能的。


咱们看物体的时候,数万类的物体,有一些物体咱们能够收集到很是大量的数据,可是有一些物体很是难收集大量的数据,甚至是没有数据的。咱们但愿可以在小样本的状况下或者没有样本的状况下也可以作计算机视觉。我最近一直在倡导咱们要作这样一棵很是漂亮的树,包括咱们在零数据、弱数据、小数据、脏数据,固然咱们也须要借鉴或者利用一些知识,使得咱们可以解决这些小样本学习的问题,以安全帽检测为例,最终咱们但愿若是能有这样的作法,把检测任务给它,剩下的交给AI生产平台,它先检索网络上的数据,搜索关于安全帽是怎么定义的,而后咱们交给算法学习,这也许是一个更加智能、更加自动化的过程。


固然从学术的角度来说,其实有很是多的小样本学习问题亟待解决,而且出现了很多的方法,大概能够分为以下几类:数据增广、零样本学习、以及小样本学习。

咱们从数据的角度能够生成数据,好比经过物理建模或者是图形学的方法来重构。

咱们也能够用相似GAN的方法,经过触类旁通的方式来作数据增广。

咱们能够在跟踪的过程当中,实现大量的样本和有标注样本的收集,这是一个自动收集样本的过程。


如今咱们作唇读的时候经过大量的语音识别生成文本,而后获得有标注的样本,还能够经过其余的模态自动标注。

此外,还有零样本学习的问题。



零样本学习的思路以下:好比说咱们系统里面可能有老虎、有马,可是咱们没有斑马。如今我告诉你能不能检测斑马,其实咱们也能够采用零样本学习的方法,经过语义空间完成图像空间样本和类别空间之间的链接。



斑马在语义空间里面,由于它长得像马、身上又有条纹。虽然系统以前历来没有见到过斑马,可是咱们能够经过零样本学习来实现对斑马的识别,固然所谓的语义空间怎么获得呢?也多是人去经过属性的定义获得的。



咱们也能够假定,语义空间和图像空间在结构上有类似性,因此能够经过对语义空间的学习来实现图像空间与语义空间的转换。



固然对小样本学习能够有更多的工做能够作。所谓的小样本,不管是有语义表示或者没有语义表示的状况下,只要每个类别有小量的数据,咱们就能够经过对辅助数据集的学习,把获取到的知识迁移到以前历来没有见过的类别上去,实现只有少许样本的检测或者是识别。



再好比,这边的物体有大量的样本,那边只有小量的样本,咱们如何实现对那边只有小量样本的物体进行检测和识别呢?这能够经过迁移学习的方式来实现。


咱们经过学习表达的空间,学习如何去提取一个特征,这个特征能够区分各类不一样的物体,既包括这边也包括那边的物体,从而解决这样小样本学习的问题。



咱们能够经过充分利用大量无监督的数据,来解决小样本学习问题。



最近两年有一个很是火的概念叫元学习,就是如何学习的方法,它能够用来解决小样本的问题。


虽然咱们每一类物体有大量的样本,可是咱们用抽样出来小量的样本,寻找到如何学好的方法,再把这一学习的方法应用到小样本学习上去。


固然在理论方法层面,仍须要迁移学习和自主学习等技术带来机器学习的本质的进步。



实际上从其余的角度来说也是很是重要的,咱们看到传感器的进步在不少时候可以带来巨大的影响,好比说摄像机的四高(高清、高速、高动态、高光谱),包括弱信号的检测、主动识别等等都对计算机视觉任务产生很是大的影响。



从计算的角度来说,如何可以把一些复杂的任务放到端上去,也是很是值得咱们关注的,咱们相信在将来三到五年的时间里面,可能会有愈来愈多的事情是在端上的,甚至三到五年以后咱们大量的训练任务都会在端上完成,而不是在服务器端完成。



简单总结一下,从视觉智能的角度来说,咱们有一句话叫作,“会看的AI更智能”。


学术界和工业界亟需从知识和数据联合驱动的方法论出发,解决小样本的问题,解决Scalability的问题。咱们知道,目前在各类问题上,几乎全部工业界的算法都是基于大数据完成的,但其实本质上,咱们也要着眼将来、布局新的可能性。


在这个领域里面有一句话叫作“数据为王”,将来不会永远是这样的,个人分享到此结束,谢谢你们。

更多干货内容,可关注AI前线,ID:ai-front,后台回复「AI」、「TF」、「大数据」可得到《AI前线》系列PDF迷你书和技能图谱。