高德地图首席科学家任小枫:视觉智能在高德地图的应用

2019杭州云栖大会上,高德地图技术团队向与会者分享了包括视觉与机器智能、路线规划、场景化/精细化定位、时空数据应用、亿级流量架构演进等多个出行技术领域的热门话题。现场火爆,听众反响强烈。咱们把其中的优秀演讲内容整理成文并陆续发布出来,本文为其中一篇。前端

高德地图首席科学家任小枫在高德技术专场分享了题为视觉智能链接真实世界的演讲,本文根据现场内容整理而成(在不影响原意的状况下对文字略做编辑),更多视觉智能技术的实现细节请关注后续系列文章。算法

如下为演讲内容的简版实录:数据库

我今天主要给你们介绍视觉及相关技术如何在高德落地,如何帮助链接真实世界。链接真实世界这句话并不仅是我我的的想法,而是高德地图的使命,咱们的使命是链接真实世界,让出行更美好后端

首先,简单介绍下高德地图,有超过1亿的日活用户,超过4亿的月活用户,高德地图不光提供导航,也提供出行相关的其余服务,涵盖了信息服务、驾车导航、共享出行、智慧公交、智慧景区、骑行、步行、长途出行等应用场景。安全

高德地图作的事情是创建人和真实世界的关系,人要跟真实世界创建联系,地图是基础,地图之上还有更多的信息能够获取。架构

视觉是链接真实世界的桥梁性能

视觉是链接真实世界的桥梁。为何?从人的信息获取角度来看,80%的内容是经过视觉获取到的。从人的信息处理来看,人的大脑30%-60%用于视觉感知。从机器的角度,视觉是很是重要的通用感知手段。优化

人类感知真实世界的方法,还有不少其余方式,例如传感器、LT...可是,做为通用的手段,我一直以为视觉是第一选择,通用,信息量很是大,能够远距感知,也能够作到实时。设计

还有一个缘由,人类真实世界里(各类元素)80%以上是为了视觉而设计。有的时候,咱们对真实世界太过于熟悉,可能不会太在乎。可是看一下周围的标志和信息,包括认识的事物,都是根据视觉设计和获取。3d

由于人类获取信息的主要方式是经过视觉,因此真实世界的设计也是基于视觉。你们能够想象下,若是获取信息的主要方式是经过嗅觉,那这个世界会很是不同。基于这些,回到咱们在作的事情,你们必定不会奇怪,地图信息的获取和创建,绝大部分也是来自于视觉。

视觉技术@高德地图-地图制做

视觉技术在高德地图的应用有不少不一样的方式,以下图所示:

左边是地图制做,有常规地图和高精地图,高精地图对应于将来的无人驾驶。右边是跟导航体验相关的,咱们在作的一些跟定位相关的工做,也在利用视觉技术但愿使导航变得更加便利。由于时间关系,今天只给你们介绍常规地图和导航相关的部分。

地图服务从哪里来,首先要采集资料,目前绝大部分是经过相机和视觉的方式采集信息。真实世界很大,全国有几百万千米道路,再加上其余信息,人工方式目前是处理不过来的,很大程度上须要用自动识别,经过算法识别资料。固然有时候算法没办法作到100%,还须要人工修正,从而制做成地图数据库,来支持地图数据服务。

地图制做任务,常规地图任务一般分为两大类,一类是道路相关,一类是POI挂牌识别。这两类任务都须要较多的视觉技术。例如,在道路标志识别上,算法要作的就是把道路上的标志一个一个所有找出来,同时识别标志的类型和内容。

道路标志有100多种。若是只是处理这些标志,其实并非那么复杂。现实中,有时候须要用低成本的方式采集数据,这时如何保证图像质量就是须要考虑和解决的问题。

采集信息的时候,有时候图片会有畸变、反光、遮挡等状况,先不说分辨率压缩的问题,成像自己取决于镜头的质量和成本、天气条件、光线等因素,有时候采集回来的图像中差的图不少。这时候就不仅是单纯去解决一个理想当中的算法问题,也须要处理不少实际状况。

给你们举几个例子,下面左边的图是实际采集的图像,会有各类各样的问题。你们对相机有些了解的话,知道相机有内参和外参,内参是焦距、中心、畸变。外参是位置、角度,这些都会影响成像效果。

对于识别问题来讲,这些相机参数不会形成太大问题,可是若是须要作一些跟几何、位置相关的计算,这时候相机畸变和内外参不许就会形成很大的问题。咱们经过把多源数据放在一块儿作匹配,基本能够解决这个问题。右边是一个实际例子,相机的畸变纠正角度,有一些斜的被纠正过来了,很大的提升了后面的算法处理。

另外一个例子,图像质量。有的图质量比较差,可是没办法丢掉,仍是有有用的信息。有的原始图像,放大以后很是模糊。若是这时采用图像加强的方法,能够把这张图变得更清楚。改善原始数据的质量,有不少可用的方法。好比提升识别算法精度,提升人工效率,也能够用它作模糊的检测,对比一下加强先后,能够知道哪些是模糊,哪些是不模糊。

刚才举的只是交通标志的例子。还有一个有趣的问题,就是感知电子眼。电子眼很小,而小目标的检测是一个有挑战的问题,在研究领域你们也比较关注。你们能够感觉下,拿一张图,若是是过小的东西,放大以后就看不清了,还不如远景。那怎么能比较精确的找到这么小的电子眼呢?

一般方式就是放大区域,由于这个东西过小了,光找这个目标比较难,找到区域放大,引入周边的信息。这些信息能够帮助更好的找到这个小目标,放的再大一点,才能看到其余相关的信息来帮助电子眼的智能检测。

可是放的太大也会有问题,放的太大会引入不少无关的信息。从技术上来讲有一些解决方法,如今视觉技术上用的比较多的有一个注意力机制,画一个大框,机器本身会学哪块重要哪块不重要,帮助更好的聚焦到目标自己。固然,尽可能会用一些先验信息,好比自己的分布、高度、大小。

光检测还不够,不少时候真实世界在变。不少时候要分辨出哪些变了哪些没变。之前检测出一个电子眼,新的资料又检测出一个电子眼,须要知道这两个是不是同一个。

如何判断?由于这张图表达的不同,若是仔细看,确实能够看到背景的建筑、架设类型都差很少。须要用算法来判断究竟是不是,这就牵涉到目标检测、车道归属、架设类型分析,还要作场景匹配。经过这些,很大程度上能够判断这是一个什么场景,从而判断两张图的元素是否是同一个。

刚才说的是道路,下面是几个跟POI相关的例子。POI的牌子,能够分红好多不一样类型,有牌坊式、挂牌式、门脸式等。不只POI各类各样,非POI其实也各类各样。若是只是检测文字的话,你会发现真实世界里的不少不是POI,有的只是标牌、标语、广告、对联、交通标志等。因此,要区分出POI和非POI。

有不少其余的复杂场景,这里不一一举例了,有些可能平时也不太能想到,好比三维挂牌,它不是一个平的牌子,在街角,多是一个水果超市,沿着街角弯曲过来。这类牌子很难在一张图里彻底检测出来,即便检测出来,一不当心就会分红两块牌子,因此真实世界的复杂性仍是会形成更多的问题。

面对这么多复杂性,须要去分析具体场景的状况。不少时候最后的结果每每不是一个算法就能解决全部的问题,须要各类算法的融合。比方说,若是是文字,须要作检测,文字自己也须要作检测和识别。位置的话,须要作一些三维方面的推断。不少时候资料获取到之后也有模糊和遮挡的部分,也要作判断。

每个判断不是单一办法就能够解决,不是光靠一个模型就可以作到最好的效果,须要的是两个甚至更多的模型,从不一样的角度去解决问题,才可以达到更好的效果,这是在数据积累的基础之上。

上面列举的一些问题有必定的复杂性,跟全部的问题同样,越作到后面越难,咱们如今还在作,这些算法很大程度上决定了地图制做的效率和触达到用户的地图质量,这些是很是重要的核心问题。

POI也不光是以上介绍的只须要判断是否是POI或者文字识别,不少时候还须要作版面的内容理解。若是一个牌子,须要知道这个牌子上的信息,有时候会有主名称,有时候会有分店,有时候没有,有没有联系方式、营业范围,这些都须要用算法去作。

视觉技术@高德地图-导航

以上介绍的是在地图制做方面有不少的复杂性,须要用视觉算法或者其余算法来处理。接下来分享下在导航方面的。

先说下本身的一个体会。前段时间在西班牙休假,欧洲的环岛特别多,谷歌(地图)导航常常提示我,进了弯道以后从第三个出口出去,我当时特别郁闷,由于要数口子,常常你也不知道那个到底算不算出口,因此走错了好几回。我在国内没开过车,国内的交通更复杂,例如在北京的西直门,有时候能够直接右拐,有时候须要转一个810度的圈。

咱们但愿对导航的方式作一个比较大的变化,让它变成所见即所得的场景。若是有算法可以直接告诉人们往哪边走,对人来讲是更加有用的,可以让开车更加简单,导航变得更加直接。

不少汽车如今都会有摄像头,无论是前端仍是后端,不少时候能够获取到视频数据。咱们把AI算法计算出的效果叠加在视频上,告诉人们到底该怎么走。

高德在今年4月份发布了AR导航产品,这个产品里有一项是实景加强,它会告诉你应该保持在这条线上继续往前开或者转弯,会有压线的提示,会有箭头告诉你前面右转。

这个产品中,除了引导以外,还有别的功能。例如,也加入了前车的碰撞预警功能,会估计前车的距离和速度,这将帮助你们安全驾驶。其余事物也能够用更加直观的方式展现,例如限速,电子眼,跟斑马线相关的,若是看到前方有人,也会作出提示。

以上的功能看起来可能不那么难,但要实现起来很难。为何?由于咱们但愿这是每一个人立刻就能实用的功能,因此要作到很低的成本。这和自动驾驶系统不同。从传感器的角度,咱们要作的是单个传感器,并且是低成本的相机。从计算的角度来讲,自动驾驶系统可能会用一个几百瓦的专用芯片,而对于咱们来讲,所须要的算力大概只是普通手机的五分之一。

给你们看一个AR导航的例子,这是实际算法的输出,这个例子里面有车辆的检测,车道线的分割,和引导线的计算等。刚才提到了,高性能(低算力)是一个主要挑战,那咱们在开发算法的时候就要充分考虑计算效率,包括各类手段,好比模型压缩,小模型训练优化,检测和跟踪的结合,多目标的联合模型,和传统GPS导航的融合,等等,须要几件事情在一个模型里作。

真实世界是很是复杂的,要作到高质量、高效的地图制做,或者作到精准的定位导航,在视觉方面还有不少工做要作。但愿经过以上介绍,你们对视觉技术在高德地图中的应用,在出行领域的应用,有了更多的了解,也对高德的使命有了更多了解。

咱们在不少时候须要去链接真实世界或者是理解真实世界,才可以让出行更美好。但愿可以尽快的把这些作好,让你们实际应用高德APP的时候,可以感觉到技术进步带来的体验变化。我今天就讲到这里,谢谢你们。

关注高德技术,找到更多出行技术领域专业内容
相关文章
相关标签/搜索