对话|首席研究员童欣：从长远看，AR的应用范围远比VR普遍

时间 2019-11-18

标签对话首席研究员从长远看应用范围远比普遍繁體版

原文原文链接

童欣博士现任微软亚洲研究院网络图形组首席研究员。1993年毕业于浙江大学计算机系，获工学学士学位；1996年获浙江大学计算机系硕士学位；1999年获清华大学计算机系博士学位，同年加入微软亚洲研究院。目前主要从事计算机图形学方面的研究。算法

记者：您是研究图形学的，您最先开始接触VR（虚拟现实）和MR（混合现实）是在何时？为何20世纪6-70年代就有VR这概念，但一直没有发展起来，这中间技术的掣肘点在哪里？数据库

童欣：早在图形学开始发展之初，VR和AR（加强现实）这些概念就已经存在了。1990年代初，图形学里高端的VR系统叫作CAVE System，由EVL研发，由几个显示屏组成屋子的墙，提供一个沉浸的环境，每一个屏幕后面有图形能力很强的图形工做站。用户戴上立体眼镜，经过一些穿戴上的跟踪设备和数据手套，就能够在里面自由地走动，旁边的内容会随着交互而改变。这在当时是一个很是高端、售价很是昂贵的系统。那时VR更多仍是面向工业应用（好比美国的航天系统）或者是军事应用。PC出现以后，你们开始用PC代替原来的超级计算机，用PC把全部显示屏搭起来就能作成一个CAVE系统。这是VR发展的一条线索。另外一条线索则是供单我的使用的头戴显示器这样的VR系统。网络

AR方面也很早，但主要仍是面向很是专门的工业应用。一是军工。好比说，一家军工厂须要修理一颗导弹，有了AR就能够知道先打开什么地方、须要执行什么样的操做，极大地提升效率，减小失误。对军工来讲，只要能提升效率，这成本就是值当的。一个是飞机制造和维修。波音公司很早就采用了AR的系统，就是小的半透明显示器置于眼睛前面，显示的内容叠加在真实场景中——不管是装配飞机或者是修理飞机，都是很是高难度和复杂的任务，须要借助维修指南，哪怕只是显示你在手册上须要查哪儿，这显示器的用处也很大。app

至于最近这一波VR/AR浪潮的兴起，一个缘由是手机产业过去这几年的发展，让全部的传感器和显示器小型化，且价格真的能让你们接受，同时，随着我的计算机计算能力的增加和图形处理器的发展，使内容显示的计算能力跟得上。全部这些条件结合在一块儿，终于能够用一个普通用户也能接受的价格为你们提供比较好的VR体验。机器学习

VR其实一直都在，但以前很小众、很昂贵，如今慢慢终于发展到了能够面向普通用户的时候。工具

记者：在这一波VR/AR浪潮里，计算图形学、人机交互和传感有什么技术突破？学习

童欣：有几个最重要的进步。首先，在硬件上，过去的传感器已经很是精确，但售价很是昂贵。智能手机普及后，传感器大量生产，价格变得很是便宜，传感器的发展也让不少定位技术有所进步。GPU的发展也很快，在这么高的分辨率下，能作到很是真实的显示——固然，在这全部的背后，还要有不少实时算法进行支持，能结合传感器数据进行实时的定位，同时把真实感很强的内容显示出来。另方面是交互技术的进展。目前在VR中，你们的交互基本上仍是依靠设备，如今能够经过传感器帮助用户肯定在虚拟环境中的位置和头的朝向，还有输入，用游戏手柄或者依靠语音、手势进行，提供很好的天然的交互体验。这也是一个很大的突破。人工智能

以微软的HoloLens为例，微软一直在天然交互，VR和AR领域中进行重点投入和研发。在真实感实时现实方面，微软研发了不少算法并经过Direct3D提供给用户，与GPU的发展相互推进，带给用户更真实的内容体验。天然交互方面是Kinect，这是第一次把很天然的体感交互体验推给用户，用价格便宜的深度摄像头，结合最新的算法，来达到用户姿式的实时识别和跟踪。近来推出的全息眼镜HoloLens就是把全部的交互、显示的最新技术与硬件集大成了。不只仅是硬件上的波导显示、全息处理器（简称HPU，Holographic Processing Unit），以及整个计算平台的可穿戴化和小型化，更有软件上的实时定位与场景重建技术、语音识别和手势识别的技术……全部这些组合在一块儿才能让混合现实的技术真正落地和活起来，才能给用户带来全新的体验。游戏

记者：透过HoloLens能够看到近几年技术发展的哪些层面？ci

童欣：我以为其实不少。首先是硬件层面，这么小的重量却要包括一台头戴显示器。HoloLens就作到了，配备一个See-Through屏幕，半透的，能看清外面，同时内容要显示在上面，分辨率要足够高。另方面，HoloLens就是一台头戴式的计算机，全部的计算单元包括电池都集成在上面，这些并非理所固然地往里塞，而要平衡不少方面。硬件集成进去，须要保证它高质量地工做，续航能坚持足够长的时间，好比说3到4个小时……全部这些都依赖于硬件的进步和工艺的进步。有了这些还不够，还要有最基础的软件去支撑硬件。对混合现实来说，最核心的技术叫作SLAM（Simultaneous Localization and Mapping），就是实时定位和场景建模的技术。这是什么意思呢？当我作VR的时候，因为整个视野沉浸在虚拟环境中，我只须要根据计算的位置，显示整个虚拟的场景。如今我在一个真实的世界里，虚拟的东西能够按照我计算的视点移动，但真实环境的物体并不会。因此我要知道你的头在真实世界中的精确位置，这样，虚拟的东西和真实的东西混合才会真实。

好比，我想显示一个虚拟的杯子在桌子角上，我如今一转头再看回来，真实世界的桌子和杯子还在那儿，但若是个人计算位置不精确，虚拟的杯子的位置就移动了。但在虚拟的世界中，我怎么知道你看的是原来的位置，我应该把这个东西显示出来在原来的位置呢？这就要求计算机必须知道在真实的世界中，我如今在哪儿、我在看哪儿，这个东西必需要实时算出来，同时必须很是稳定、不能有扰动，否则用户就会以为显示的内容在空中飘……这个挑战是很是大的。微软经过HoloLens上的摄像头和很是先进的算法，包括专用的HPU来进行全部的计算，把全部的位置信息能实时地提供给你。这些东西是全部作加强现实，特别是混合现实（MR）最关键的技术。

同时，咱们也认识到混合现实这一全新体验背后须要一系列的技术作支撑，不管是内容生成方面、智能交互方面，仍是最上面的内容的智能理解交互方面，都须要专业的算法，门槛很高。若是只有几个大公司作内容、作开发，可能仍是不能知足你们的须要。最好的办法就是咱们创建一个生态系统，咱们不只提供像HoloLens这样一个标杆的硬件，并且提供Holographic这样一个软件平台，经过把不一样的算法和服务变成普通用户都能用的API，想开发某些应用的人就能用咱们的工具和服务来开发应用，最后能够作到HoloLens上去，也能够用到其余虚拟现实、加强现实设备上去。

记者：虚拟现实和混合现实开启了一个沉浸式的三维图形显示的时代，在三维图形领域，还有哪些问题是须要解决的？

童欣：光影技术在图形学里叫“绘制技术”，实时的、光影真实的三维场景绘制技术一直是研究的热点。在微软研究院，咱们第一次尝试用机器学习的方法处理这一问题，第一次把一些原来很是难作到的复杂光影效果作成实时。咱们相信，随着这些技术的发展，会有更多的酷炫的光影效果，能够在VR和MR中呈献给你们。

还有一个问题在于怎么更方便地产生更真实的三维场景和交互内容。传统上咱们须要艺术家去造型，但另外一个方法是从真实世界中直接拍摄捕捉。好比，我想作一个咖啡馆，之前艺术家要用三维造型软件手工去作，包括全部细节，这是一种方法。还有一种方法，是拿一个深度相机或普通相机，把一个咖啡馆里全部的桌子和墙的几何形状、材质彻底捕捉下来，把它放在三维场景里，真实感一下就提升了，全部桌面的材质都会很真实。有了这个技术，艺术家就不是无中生有了，他能够在这个场景的基础上把材质改改，好比让桌子生点锈，把它变得更有质感。所以内容捕捉技术是很是重要的技术路径。微软研究院在这个方向作了很是多的研究工做，咱们的目标也是但愿经过咱们的推进，能让普通的用户享受这项技术，经过好比Kinect这样的深度相机，甚至像手机或者是普通相机拍摄的东西，把用户感兴趣的三维物体和几何形状表面的丰富材质、光影效果都捕捉下来，完美再如今虚拟的世界里。一旦这个问题解决了，全部普通用户都能产生高质量的三维内容，那虚拟世界、混合现实的世界就会变得丰富多彩，用户的体验也会提高一个数量级。

记者：混合现实真的要变得实用，还须要解决哪些问题？

童欣：首先从交互的角度来说，要有定位，要有语音和手势、表情等天然的交互方式，这方面技术还须要进一步成熟。若是高质量的输出和用户的输入方式不匹配，用户就会以为这个东西很差用、不天然。一个常被你们忽略的问题出在智能感知层面，为了让混合现实的体验变得更好，咱们须要有更好的下一步的人工智能技术和识别技术。

好比说，在一个场景中，当我戴上AR眼镜想操做这个东西。定位技术告诉计算机我在盯着这个东西，但是这个东西是什么呢？可能须要经过识别技术“知道”这是一个遥控器。而后系统知道用户想使用遥控器了，把遥控器的操做信息从数据库中拿出来传递给用户，变成一些可视的指南，交给用户说，你先按这个键吧，根据用户操做的手势和出现的问题，再给用户进一步指南——你能够看到，在这个简单的例子里，天然交互，显示，识别，全部这些都要加在一块儿，这个场景才行得通。若是里面缺任何同样，最后都会变成，听起来很美好，用户刚开始也以为很新鲜，但很快会发现，操做比原有的设备和方法更费事，那么天然带来用户指望和实际效果之间的巨大落差。因此微软但愿能从各个层面开展研究，提供解决方案，缩小落差，让混合现实变成对用户真正有用的东西。

长远看，从应用范围来说，AR远比VR普遍得多，未来会渗透到生活各个方面。当你戴上VR的时候，你看不到真实环境，彻底是在虚拟世界的体验。混合现实更多地能够想象成视觉助手同样的东西，极大加强和方便你在真实世界的生活。可是AR技术的门槛更高，所以你们以为AR的普及可能会比VR晚不少。之前你们会说AR怎么也得等10年，我我的乐观估计可能会来得更快。缘由有两个：第一，AR不少基础层的智能感知技术，其成熟速度比咱们之前想的要快；第二，随着AI技术的成熟，识别感知层成熟得更快，好比说物体识别的技术就在突飞猛进地发展。这些技术的进步能对AR的场景产生很是大的推进做用。这些东西若是比之前成熟得快，AR的场景应用就会更快地来到，但具体的时间我以为很难预测，由于技术的发展真的是太快了。