如下内容为由4月27日由将门主办的“计算机视觉”主题技术专家微信群分享发言嘉宾实录。git
分享嘉宾:格灵深瞳CTO 赵勇算法
300多位来自谷歌、Facebook、微软、Nvidia、滴滴等公司的技术人士、以及MIT、Stanford、CMU、清华、北大等高校的计算机系优秀学生听取了本次分享。数据库
期待你的加入!参与方法请见文章末尾的介绍。安全
今天我和你们分享的主要内容是介绍一下计算机视觉技术部分主要的模块是什么,以及跟计算机视觉相关的一些应用。微信
计算机视觉是跟图像处理有关的,主要有如下四个模块:网络
第一个是Imaging,成像的过程;dom
第二个是Detection,也就是检测的过程,能够关注发现到有趣的物体;ide
第三个是Tracking,若是你要关注这个物体的状态、运动、行为、交互,就须要作很好的跟踪;工具
第四个是Recognition,对于同一类的物体,进一步去发现每个个体的实例。好比说一样是人脸检测,检测事后我想知道这张脸是谁的脸,这就是Recognition。学习
这些东西都是计算机视觉作的技术模块,基于这些技术模块,背后就是真正的应用。
过去的计算机视觉
我是从2003年开始念博士的,以前本科和硕士都是在复旦大学学习半导体。刚去美国时,也是在作半导体的工做,后来才转行进入计算机视觉领域。在2003年,其实半导体技术已经很是成熟了,并且有趣的事情都发生在工业界,而不是学术界。因此那个时候我就萌生了转行的想法,而且很幸运地选择了计算机视觉这个方向。
当时转学到布朗大学去作计算机视觉,我是彻底没有任何背景的,个人导师招我是由于我有比较好的硬件实现能力。正好他当时对运算摄影学(computational photography)很感兴趣,这里面会涉及到不少硬件设计,因此他招了我作他的博士研究生。
我想先给你们介绍一下13年前计算机视觉的现状。当时在美国每一年计算机视觉产品的市场大概有六千亿美圆。但在生活中却看不到任何计算机视觉的产品。这主要是由于计算机视觉在当时很是昂贵,主要应用在军事、医疗和工业这三个领域。
1. 军事领域
在军事领域,大多数先进的武器都是有计算机视觉在里面的,好比说导弹。导弹怎么样去寻找目标,怎么样去作一个路径规划。我给你们举一个例子,美国历史上最成功的一个巡航导弹就是战斧导弹。这个导弹的特色就是它几乎是贴地飞行或者贴海飞行,它的飞行高度很低。咱们知道当它高度低的时候,那些基于地对空Line of Sight (LoS)工做的雷达,就没有办法工做了,那这样的话,它就能够逃避大多数的雷达,可以安全地到达它的做战区域。
战斧导弹能够在10米如下贴海飞行、能够在25米左右用很是快的速度贴地飞行。这个过程当中,它要应付凹曲的地形,有的时候还可能会有障碍物,可是它飞到目的地附近的时候,它要作一个眼镜蛇式的抬头,而后这个时候它再低头俯视它的目标在哪里,(这个目标要么是提早在卫星地图里标定好的,要么是战场附近的地面做战人员现场用激光标注的),肯定好目标后,而后再打出去。人类历史上能够实施外科手术式的远程打击就是依赖这种技术。在这个导弹上普遍地使用了不少不少计算机视觉的技术,好比高度控制、视觉定位、目标寻定。
2. 医疗领域
医疗领域就更加是如此了。今天咱们去医院里面作一个检查,医生用的大部分的诊断工具是跟图像有关的,包含X光、超声波、CT、核磁共振等设备。即便是作一个化学检测,好比验血,有些时候也要把样本放在显微镜下去成像。固然这是一个广义的图像概念,它的图像包含了电磁波无线电的整个波段,从例如伽马波段这种很高的频率一直到频率很低的波段(好比毫米波)都有,甚至有一些更低频的超声波(非电磁波)其实也能够算在广义视觉里面。
咱们的古人讲究用望闻问切来诊断,可是这些手段是很是单一和落后的。今天在医学领域中的不少问题,若是有很好的医疗设备可以把本质反映出来的话,诊断就能够很精确了。这个如此大的领域目前主要有三家公司,简称“GPS”——GE(通用电气)、Philips(飞利浦)和Siemens(西门子)。
3. 工业视觉
工业视觉指的是在工厂里的流水线上作的各类跟检测和组装有关的视觉系统。好比说一个可口可乐公司的汽水瓶的封装工厂,它在每一个瓶子里面装上汽水的时候,要把一个瓶盖放上去,这个时候它就须要检测到有没有瓶盖装的很差,有漏气或者是瑕疵,这种技术实际上是在工业界很是很是普遍的使用。
在13年前计算机视觉的应用就已经很普遍了,那么在过去这13年里面到底发生了什么变化呢?在回答这个问题以前,我想先总结一下在13年前计算机视觉的特色。它们的工做环境:
要么比较简单,好比说工业视觉,它是在一个严格控制光照条件的环境里进行的,它的任务实际上是比较简单的;
要么就是这个任务不必定简单,可是它对自主化的要求并不高。好比说在医疗领域用的计算机视觉,在那个时候更重要的目标是成像,或者说作数据的加强(image quality enhancement )。那么它的做用仍是让医生看的更清楚,可是最终的决定是由医生来作的。在军事领域也是同样的,不少计算机视觉在军事领域应用,一旦到了作决定的阶段,仍是会把决定权交给人去作,即便是战斧导弹这么先进的武器,它在最后的阶段眼镜蛇在瞄准的时候,也是须要一个操做员在背后肯定这个目标到底要不要打。
因此13年前的计算机视觉应用要么环境简单,或者它只是作加强,并不作最后的判断。因此这些算法当时并不复杂,可是有一个特色就是这些产品都很是很是地昂贵。这实际上是符合科学发展的客观规律的。任何一种新技术,它在成熟的过程当中,老是从简单到复杂,从昂贵到廉价。因此它的应用领域也是从军事、医疗、工业,再慢慢地到消费行业。
当今的计算机视觉
那么13年后有什么新变化呢?我以为主要体如今两个方面:
计算机视觉愈来愈多的进入一些非专业的领域,跟消费者更息息相关的领域。它们开始解决一些现实的问题,这些问题会更复杂,由于他们不是在一个supervised的环境下,尤为像汽车、机器人,这些领域它其实并不在工厂里面,也不是在室内,它面临的是真实的世界,很复杂的光学环境。
设备的自主能力愈来愈高了,不少时候这个设备就本身作了大量的决定,基于它们对视觉感知的判断就能够作基本的决定。
因此今天的产业环境跟过去是不同的,尤为是创业公司在今天进入计算机视觉或者人工智能领域的时候,基本上都要面向一些新兴的行业。
我我的认为在这个时代计算机视觉最主要的应用领域,若是按照它的产业规模和离现实的关系综合来考量的话,我会对四个领域特别关注——安全、汽车、机器人、智能医疗。除了这四个领域之外仍是有不少其余的应用机会,好比说娱乐、动做捕捉、VR、广告,甚至我曾经作过一些考古相关的计算机视觉项目。
1. 计算机视觉的相关技术
1) 成像与运算摄影学
如今来讨论一下成像的过程,不少人以为成像很是简单,不就是一个摄像头么,有一些参数能够调节,如曝光时间、白平衡、色彩均衡等。但事实上若是咱们这么想的话,就失去了好好理解成像的机会。
当咱们想到图像的时候,咱们应该从一个广义的角度来理解它。其实电磁波是上帝赐给咱们这个世界很是重要的礼物,它能够帮助咱们超越物理的距离去感知周围的环境。可是电磁波频率的范围是很是广的,好比说快的X光、伽马射线,还有一些宇宙射线,低频的话能够到毫米波。好比从400到650纳米是可见光的波段,可是从紫外线、可见光、近红外、红外线、thermal甚至一直到毫米波的波段,这里面都有不少很丰富的资源。在不一样的波段上,它们的行为也是很是不同的。可是咱们今天想到计算机视觉只能想到从400纳米到650纳米这个波段,那么这样讲的话就太狭隘了。
今天给你们介绍一个叫Computational Photography(运算摄影学)的概念。它的意思就是说咱们可使用各类各样的电磁波手段,以及各类各样的算法、多种传感器的融合,经过有趣的算法和运算的组合,可以产生新的感知数据。在这个领域里面存在一些人,他们不甘于接受传统的RGB传感器给咱们提供的数据,发明了各类各样的新型相机,生成的有些图像是咱们人的眼睛或者传统照相机看不到的,好比说深度摄像头。咱们都知道深度摄像头能够给咱们返回很是珍贵的深度信息,有了深度信息咱们就能够更精准地把握一个环境的三维结构,它可使得检测、跟踪、识别的不少任务,变得更加可靠、简单、方便。有不少方法可以得到深度,好比你们常了解的经过多个视角的画面可以算出来的,还有结构光,这里面涉及到一个projector(投影仪)。其实projector的光学模型和Camera彻底是相反,它是一对duality,它们的不少行为都是能够互补的。还有一些激光雷达的方法,据我所知道的depth sensing的方法大概有20多种,今天在产业上进入成熟的大概只有三四种。
应用场景1:光场相机
光场相机简单的说就是这种相机能够完整地捕捉咱们眼睛瞳孔前成像的平面上全部的光学行为,它是一个四维的场。若是咱们能够把光场捕捉下来,就能够过后在其余的地方重现完整的光学环境,使得咱们的显示、捕捉、识别能够作得更好。一个最典型的光场display就是如今炒的很是火的Magic Leap想要作的事情。
应用场景2:Femto Photography相机
接下来想介绍一种叫作Femto Photography的相机。Femto指的是经过传感器和算法的组合,可使得成像的速度达到光自己频率的程度,它是一个时间和频率度量的名词,基本上是10的负15次方这个水准。Femto Photography使咱们观测的纬度和速度可以提到光自己的程度。好比说咱们知道光是有运动行为的,它从A到B实际上是一个连续的过程,咱们是否有一种相机自己能够去观测光本身的运动呢?这听上去像是一个伪命题,由于咱们的相机也是经过光的感知来实现的。既然咱们依赖了光,咱们怎么可能去观测比咱们依赖的基本的光还要更快的东西呢?
有个实验就捕捉了一束闪光灯,从它发出来到它穿过一个可乐瓶这个过程当中的画面。这里用了一个颇有趣的光学跟算法的组合重现这个画面,它帮助咱们更好的理解了光学行为。在工业界中其实这里面有不少有趣的应用,另一个Femto Photography的例子就是如何经过折线可以看到一个场景。好比说绕过一个墙角,看到墙角背后的一些事情,它也是利用了一些Femto Photography的技术。
2) 定位的传感技术
定位的传感技术使用了一些光学的传感器,使得你能够清晰地、精确地获得本身在三维空间中的定位,这个事情是很是重要的。好比说在VR的领域,若是可以很精确地、速度很快地定位到头盔的位置,那么当咱们在一个房间或者空间中移动的时候,咱们就能够更有效地去更新这个画面的视角,使得VR的体验更加真实。但怎么样把这样的事情作好,其实今天世界上最成功的技术就利用了一种古老的运算摄影学的原理。
从今天来看我最喜欢的VR定位技术,就是一个叫Valve的公司,作的Lighthouse的技术。这个技术受权给了HTC,使得HTC今天虚拟现实的头盔体验作的是最好的。它的原理其实就是利用了一个相似于空间编码的技术,使用一个转动的激光投影仪,把空间编码发到空中去,而后用一个Photo Sensor来接收这个信号,把里面的空间编码解读出来,这样就能够精确地知道本身的位置。
接下来给你们介绍一种很是有趣的成像技术,这种技术是用来观测空气的流动,咱们知道大多数空气是透明的,当它们流动的时候,它们并无影响光线的变化,咱们没法看到空气的流动,可是有一种运算摄影学的技术能够帮你清晰地观测到空气的流动,这个技术的名字叫Schlieren Optics。
你们可能会问这样的技术有什么用,当时我在实验室接触到Schlieren Optics时,作了一些很好玩的事,好比测量打一个喷嚏到底能够打多远,咱们后来发现一个喷嚏有时候能够达到两三米远。这就给咱们一个警示,之后打喷嚏的时候要离人远一点,把嘴巴挡住。但一些更重要的做用在于工业界能够用这种技术去分析空气动力学。
咱们可能曾经在电视上看到过这样的广告,一个跑车公司在展现他们的产品时,会作一个风洞实验:把这个车放在风洞里面,而后吹很大的风。这个时候有一我的把一些粉末或者碎纸片撒在气流里面,观测这些小纸片怎么在汽车的表面翻腾。而后根据粉末或碎纸片的运动状态来判断车的表面空气动力学设计是否足够好。但这种方法真的是很是很是的低效和很是地原始。今天其实有一些飞机设计公司,已经开始用Schlieren Optics这种原理来观测他们的空气动力学。不须要任何的外在物质,只须要这么一种光学设备就能够看到空气自己在飞机表面移动的状况。甚至如今美国的一些武器公司,在检测本身设计的子弹,或者一些其余飞行导弹的冲击波效果时,就是用这种Schlieren Optics来作的。
2. 当今计算机视觉的应用
今天我其实并不想花不少时间去讨论具体的算法,计算机视觉这个领域自己就是很是广袤的,并且在不少领域有很大的深度,因此不可能在这么短的时间给你们一个有效的归纳。我想重点讨论一下应用方面。格灵深瞳自己对安全、汽车、机器人等领域比较感兴趣,如今咱们在前三个领域都有一些产品或者是研究的项目在。下面,我将分别地介绍一下咱们对这些领域的观点和感觉。
1) 安全
我说的安全特指的视频监控。其实安防领域它已经存在了好久,从商业摄像头存在到如今已经有三四十年的历史,它其实在八十年代就进入到了安防领域,只不过那个时候是一个奢侈品,如今变成了一个平常必需品了,并且价格也不高。
整个安防体系整体来讲就四个模块:摄像头、传输网络、存储器、显示器。你能够感受到它实际上是一个视频系统,而不是一个视觉系统。视频的意思是它最终是给人看的,而视觉是说它是一个视觉信号,能够被计算机理解。
对应到咱们今天的视频监控产业来讲,你会在摄像头、传输网络、存储器、显示器这些环节都找到很是大的市场。去年,中国的安防市场总共有4500亿人民币,实际上是一个比智能手机还要大的产业。但这里面智能分析是一个很是小的模块,最重要的缘由就是算法不够成熟,以及咱们整个安防领域的基础设施不成熟。
今天咱们安防的主要产品形态并无给智能理解留下一个很好的空间,好比说咱们作计算机视觉首先须要接触到数据,可是今天的安防数据大多数都存储在一个录像机里面,它们能够是DVR(Digital Video Recorder)或NVR(Network Video Recorder),甚至有些地方还在普遍地使用Analog Video Recorder。那么像这样的形态,它的整个体系就不太方便让一个计算设备把它的数据挖出来,而后去处理。咱们很是但愿在将来能有一个更友好的基础设施出现:全部的摄像头都链接到一个云上去,在云上咱们能够把计算机视觉的算法加载在上面,接触全部的数据而且分析它们。
在安防领域最关注的三个物体是车、人、脸。若是咱们能够把这三个问题研究的很清楚,基本上安防的问题就能够解决了。还有一些延伸的问题,好比说re-ID(从新识别)。由于咱们今天的摄像头数量很是巨大,在一些大城市有几百万个摄像头。当一个物体从一个相机转移到另一个相机的时候,若是你想分析到它广义的轨迹,必须把一我的在不一样摄像机拍摄的图像中,从新识别出来。接下来若是你想了解这个个体的行为,就必须得了解他具体的姿态、动做。其实还有一种行为叫作变化检测,也是很是重要的。
然而,在全部这些事情的基础上,还有一个很是重要的问题须要解决,就是怎么样能够在监控的应用里面,把一个事物看得很是很是地清楚。咱们曾经有一个公安的客户,他们拿着一段视频来给咱们看,这个视频显示在一个建筑物的门口有一我的走出来,而后就朝着远离相机的方向离去了。在这个画面里面,这我的的高度大概不到10个pixel(像素),就是一点点,你宏观上能够判断出那有一我的,可是至于他长什么样子彻底看不清楚。警方来找咱们的目的就是说他们很是肯定这我的是一个很重要的犯罪嫌疑人,可是他们想知道他长什么样子,他们惟一的线索就是这个很是模糊的视频。他们但愿咱们可以采用技术的手段,把这个视频加强,帮助他们更好的理解这个嫌疑人。
咱们看完这个数据以后,实际上是没有办法帮助他的。若是数据在捕捉的时候就丧失了,后期是没有任何办法把它捏造回来的。要想根本地解决这个问题,就要发明出更好的相机,可以在大广角的状况下,仍然能够看到很远的距离。也就是说它的有效分辨率必须很是很是地高,很不幸的是,今天咱们市面上全部的相机都远远的不合格。
想象一下,若是咱们有一个高清摄像头,今天标准高清摄像头的分辨率是1920×1080的像素,这个分辨率的视频其实已经很是很是清晰了,数据量也很大。可是若是放在一个监控视角,好比说放在一个相对的广角(70-80度)下,在这个视觉下,离相机4米远以外,一我的的脸只可以在一个100×100像素的范围里面成像。这个大概是咱们今天作人脸识别最低的要求了,比这个更小的人脸,咱们作人脸识别的效率就会大大地下降。这才4米远而已,若是这我的站在10米远、20米远,甚至是100米远以外的话,咱们几乎不可能看清这我的脸。
给你们再举一两个例子。下面这张照片显示的就是2013年波士顿马拉松暴恐案上的两个罪犯,左上角的监控画面里就是这两个嫌疑人。大家能够看到这两我的其实离相机的位置很近,若是大家观测这个地面的方砖,每一块方砖的尺度大概是1.2米-1.5米。第一个嫌疑人离相机不过也就是2米的距离,后面这个嫌疑人离相机大概也不超过五六米的距离。在这么近的距离下,他们的面部彻底没有达到一个清晰可辨的程度。后来警方没有办法,就把这张照片公布出来,但愿民众提供线索,你们在右上方和左下方看到的就是民众提供的照片。
下面这两张照片就是咱们作的一个小小的实验。在这个实验中,咱们使用了佳能的单反相机,这算是市面上质量很是好的相机。咱们把它的分辨率调节到高清的程度,也就是1920×1080,而后请咱们的几位同事,站在离相机10米远和30米远的地方分别拍了一张照片。咱们把这些照片里面人脸的部分拷贝出来,在这个侧面造成了一个影像,大家能够看到其实这我的离相机10米远的时候,它的面部在相机里面只能留下36×36的像素,在30米远的地方只剩下12×12的像素,这些像素是彻底不足以咱们对人像进行一个比较好的理解跟识别。
因此,咱们指望将来能够发明一个相机,帮助咱们更好地解决这类的问题,从信息的源头就把问题解决掉。
2) 汽车
下面我给你们介绍一下自动驾驶汽车相关的计算机视觉技术。今天在市面上存在着不少和智能汽车有关的视觉公司,可是这些公司基本分为两类:
第一种是ADAS (Advanced Driver Assistant System)技术,就是先进驾驶辅助系统。ADAS的主要功能就是给司机在行驶过程当中提供一些和安全有关的提醒,最主要的做用就是驾驶辅助。它是一个辅助功能,它并不参与驾驶,也不对驾驶负任何责任。
第二种是Automatic Driving自主驾驶技术,自主驾驶技术又分为三种形态:
辅助驾驶(有的时候是人开、有的时候是机器人开)
自动驾驶
无人驾驶
自动驾驶和无人驾驶的差异就是汽车里面到底有没有人类司机,若是彻底没有的话,它就是无人驾驶。在应用层面上,无人驾驶能够进行分享交通的服务,也就是说这个车有的时候能够为你服务,有的时候能够为他服务。
今天在中国有不少不少的ADAS公司,大多数都是一些计算机视觉公司,自动驾驶公司实际上是很是很是少的,大多数也都是一些汽车电子行业有造车能力的公司。以个人理解,严格定义来讲,今天我听到的中国作自动驾驶的公司应该只有百度、驭势科技(格灵深瞳分离出来的新公司),还有就是清华大学的智行者。
咱们今天介绍的重点在自动驾驶。在自动驾驶层面上视觉感知的意义是什么?
第一件事情是参与到防碰撞的过程。也就是说它可以检测出全部可能被碰撞的物体,而后给这个汽车一个安全的决策依据。很幸运的是今天在市场上有一些特别适合作防碰撞的传感器,好比说激光雷达、毫米波雷达,它们都作得很是好。这里面有一个很重要的缘由,这些传感器它的工做原理基本上基于物理检测,它们把电磁波发出去,而后根据回波来判断这个障碍物的存在。
在驭势科技,咱们主要是使用一种深度传感器,可以把全部物体的点云恢复出来,而后咱们把有可能跟汽车碰撞的那部分点云呈现给决策系统。也就是说咱们并不去判断这个物体是什么,而是把存在感交给决策系统,事实上什么都不能碰,这就是我对于防碰撞的理解。因此咱们的方案是以物理传感器为主,以计算机视觉为辅,让他们造成一种相互独立的互补系统。
第二件事情是Traffic Understanding,即理解交通里面有哪些要素。这里面包括道路自己的要素,好比说旁边的路标,它会告诉你这里该怎么开,有的时候是单行线、限速、交通灯以及其余的一些缘由。我我的以为用计算机视觉去检测全部的静态交通单元并非特别好,虽然今天咱们检测交通标志以及交通灯的准确度愈来愈高了,可是我仍然以为像这些信息彻底能够经过无线传输的方式传给车里面。
将来,在自动驾驶汽车这个领域将会出现一个新的方向叫作“v2i”(vehicle to infrastructure),也就是说将来的汽车会和基础设施进行通话,在地图信息里面会包含全部的路标。每个路灯将来都会经过颇有效的通信方式,把他们的状态传递给汽车。那么这样一来汽车只要有效地检测行人、车辆(汽车、三轮车、自行车)就能够了,而这个任务其实用今天的深度学习来解决已经效果比较显著了。
既然咱们防碰撞已经有了其余的方法,咱们为何要检测这些物体的种类呢?其实这就是跟咱们驾驶的决策息息相关的。好比说在一个十字路口,你的汽车要左转,那么按照交通规则你必须让有路权的车,好比说对面须要直行的车辆。若是激光雷达和毫米波雷达,它们没有能力去作识别,它只能告诉你,周围的地形怎么样,哪一个地方有一个物体,可是它不能告诉你这个物体是什么。当这个物体是一辆汽车,或者这个物体是一块水泥墩的时候,你的驾驶决策是彻底不同的。
再好比你开车要路过一个斑马线的时候,即便这个斑马线没有任何物体阻挡,可是若是斑马线的旁边站着一个路人,他试图去过斑马线的话,按照不少国家的交通规则,咱们是应该让行人先走的,这个时候就涉及到必须识别出这个物体是一个行人。
第三件事情是定位。定位很是重要,由于当你要自主驾驶的话,前提条件就是知道你本身在哪,应该开到哪一个方向去。可是这个定位的要求精度又很高,你必须很详细地知道你在什么位置,今天在行业内你们广泛对于定位的期待是10厘米左右,可是怎么样得到10厘米精度的定位结果呢?比较成熟的方法有这么几种:
第一种是经过高精度的激光雷达来定位。它的基本思路是首先有一个地图车,把街景所有扫描一遍,获得这个地区的三维点云,而后通过必定处理后方便来作匹配。下一次当这个汽车开到这个位置的时候,它用激光雷达扫描出来一个新的三维点云,而后经过GPS大概获得本身在一个粗略的方位,这个方位基本上是在100米精度以内的。而后把新的点云信息跟数据库里面的点云进行一个对比,这个匹配的结果就是定位。这个精度能够作到比较高,可是这里面有几个显著的问题:
a. 用来作定位的激光雷达今天还很是很是昂贵,在中国买一个这样的雷达今天的成本是10万美圆;
b. 它的数据量很是大,它的地图存储很大,很不方便使用。你能够想象有一天一辆汽车装载着全中国全部道路的三维点云吗?我以为这事想一想就挺可怕的。另外,这种场景匹配的过程过多的依赖于整个场景的信息,有些信息是不稳定的。好比说,路旁边的树木它在夏天的时候很茂盛,在冬天的时候都枯萎了。包括你在扫地图的时候可能旁边有一辆车停着,你下次来的时候这辆车又不在了,这些变化的因素都会给激光视觉定位带来潜在的噪音。
第二种方式就是使用所谓的差分GPS,也叫GPS RTK。它是一种经过天空的定位卫星,以及地面的定位基站共同辅助的方式来提升定位精度的一种技术。这种技术在条件合适的状况下精度很是高,甚至能够达到几毫米,可是这种技术很是很是昂贵。在今天的中国想要购买一套差分GPS的天线成本也是几十万,并且这种技术自己也有缺陷。好比说在隧道里、桥底下、城市的核心区域、被大楼包围的区域,GPS RTK的信号仍然很不理想。百度公司在去年12月份展出的自动驾驶视频里面就采用了这种技术。但他们当时为了作这个展现,也须要临时铺设一些GPS RTK的天线和基站,这种行为其实不具有可商业化的条件。
问题就来了,不管你使用激光雷达,仍是使用GPS RTK,每每还要配合一颗精度很是高的惯导,叫Inertial Sensor(INS),这个INS精度高的时候也是贵的不得了,便宜的也要二三十万,我据说有一些创业公司但愿可以把这种传感器的成本大大下降,好比说下降5倍,那也要好几万,因此我以为这些方法都不具有可商业化的可能性。
因此计算机视觉在这个时候的重要性就体现出来了。你们思考一个问题,是否是有一天咱们能够用计算机视觉就可以完成精度很高的全局定位?若是这件事情能够作到的话,我以为它的意义很是大,远远比作防碰撞要重要的多。
今天咱们在机器人视觉里面作定位的视觉技术,好比说visual slam、visual odometry这些技术,在一个小的范围内用的还不错。可是当咱们在世界范围使用的时候,好比说咱们想象一下如何运用visual slam的技术,使其在全中国全部的道路适用。我以为咱们过去的算法都是不可靠的,今天格灵深瞳也在研发相关的技术,咱们但愿咱们将来能够实现这个目标,我我的认为这是咱们对无人驾驶技术最大的贡献。
3) 机器人
最后咱们就移步到机器人的话题,其实自动驾驶汽车自己就是一种机器人。这里的机器人特别指的是服务型机器人,那种在家庭、办公室、餐厅、酒店等真实世界里面跟更多大众打交道的移动机器人。在这种机器人里面核心的视觉问题其实跟汽车也差很少,它也包括防碰撞、定位技术,由于只有定位之后你才能够去作导航,可是更重要的是它必须有很好的交互能力。由于机器人要跟人打交道,要服务于人,因此它必须可以观察人、引导人、跟随人、了解人,而且识别出每个人的个体,弄清楚谁是你应该服务的对像,谁是主人。
理想的机器人须要具有很强的视觉能力,它可以在空间中对这个环境作很是好的分析和定位,它可以很灵活地移动,它可以跟人甚至跟宠物在一块儿交互、玩耍,它可以识别出姿态、手势、面部等等信息,固然它还有语音识别的能力。咱们很是期待将来服务机器人可以愈来愈聪明,由于今天我看到的大多数服务机器人仍然很是地笨拙。
-END-