一文汇总增强现实的关键技术

跟踪注册技术

对于增强现实系统来说，一个重要的任务就是实时、准确地获取当前摄像机位置和姿态，判断虚拟物体在真实世界中的位置，进而实现虚拟物体与真实世界的融合。其中摄像机位姿的获取方法即为跟踪注册技术。从具体实现上来说，跟踪注册技术可以分为3类：基于传感器的跟踪注册技术、基于计算机视觉的跟踪注册技术及综合视觉与传感器的跟踪注册技术。

1）基于传感器的跟踪注册技术

基于传感器的跟踪注册技术主要通过硬件传感器，如磁场传感器、惯性传感器、超声波传感器、光学传感器、机械传感器等对摄像机进行跟踪定位。

磁场传感器根据磁发射信号与磁感应信号之间的耦合关系获得被测物体的空间方向信息，根据接收器的磁通量获得接收器和信号源之间的相对位置信息。这类设备一般较为轻巧，但环境中的金属物质会对磁场传感器产生干扰，进而影响跟踪注册的准确性。惯性传感器一般包括陀螺仪和加速度计等。陀螺仪可以用来测量物体的运动方向；加速度计可以用来测量物体的加速度。两者相结合就可以获得物体的位置和方向。超声波传感器跟踪根据不同声源发出的超声波到达目标的时间差、相位差和声压差实现跟踪注册。这类方法受外界环境影响较大。光学传感器通过分析接收到的反射光的光信号实现跟踪注册。机械传感器根据机械关节的物理连接来测量运动摄像机的位姿。综合来看，基于传感器的跟踪注册技术算法简单，获取速度快，但设备较为昂贵，且容易受外界环境的影响。

2）基于计算机视觉的跟踪注册技术

近年来图像处理与计算机视觉发展较快，一些较为成熟的技术已被应用于增强现实系统的跟踪注册中。基于计算机视觉的跟踪注册技术通过分析处理拍摄到的图像数据信息识别和定位真实场景环境，进而确定现实场景与虚拟信息之间的对应关系。该方法一般只需要摄像机拍摄到的图像信息，对硬件要求较低。

在实现方式上，基于计算机视觉的跟踪注册方法可分为基于人工标志的方法和基于自然特征的方法。

基于人工标志的方法一般将包含有特定人工标志的物体放置在真实场景中，通过对摄像机采集到的图像中的已知模板进行识别获得摄像机位姿，之后经过坐标系的变换即可将虚拟物体叠加到真实场景中。基于人工标志的方法最具代表性的是ARToolkit和ARTag。ARToolkit通过使用人工标志实现了快速准确的跟踪注册，但其在遮挡敏感；ARTag采用数字编码的方式在一定程度上增加了对遮挡的处理能力。图1展示了ARToolkit 中人工标志示例。图2展示了ARTag中的人工标志示例。

图1 ARToolkit人工标志示例

图2 ARTag人工标志示例

基于自然特征的方法通过提取图像中的特征点，并计算场景中同一个三维点在二维图像上的对应关系，优化获得三维点在世界坐标系中的位置以及摄像机的位姿。近年来，随着计算机视觉与人工智能的发展，同时定位与地图构建（simultaneous localization and mapping，SLAM）受到了人们的广泛关注。这类方法在跟踪注册的同时构建场景地图，具有运算速度快、精度较高的优点。基于自然特征的方法不需要人为地在真实场景环境增加额外的信息，只需要跟踪视频中捕获的场景中的自然特征，并经过一系列几何变换即可实现场景的跟踪注册。相比基于人工标志的方法，这类方法更简单、方便，但自然特征数目与跟踪效果的不稳定将对系统的运算速度和精度造成较大影响。

3）综合视觉与传感器的跟踪注册技术

在一些增强现实的应用场景，基于计算机视觉与基于传感器的方法均不能获得理想的跟踪效果，因此，研究者综合考虑二者的优缺点，将二者结合起来，以获得更优的跟踪注册效果。香港科技大学沈劭劼课题组提出的视觉惯性导航（visual-inertial navigation system，VINS）系统将视觉与陀螺仪和加速度计信息深度融合，在无人机和手持移动设备上均获得了较好的跟踪注册效果；苹果公司推出的ARKit和Google公司推出的ARCore增强现实软件平台分别支持iOS和Android 操作系统，为移动端智能设备上的增强现实应用提供了无限可能。图3展示了在ARKit和ARCore平台上开发的移动设备上的增强现实应用示例。

图3 增强现实应用示例

显示技术

增强现实技术的最终目标是为用户呈现一个虚实融合的世界。因此，显示技术是增强现实系统中的重要组成部分。目前，常用的显示设备有头戴式显示设备、计算机屏幕显示设备、手持式移动显示设备及投影显示设备等。

1）头戴式显示设备

由于增强现实系统要求用户可以观察到现实世界的实时影像，头戴式显示设备主要是透视式头盔显示器。这类设备的主要功能是将用户所在环境中的真实信息与计算机生成的虚拟信息融合，按真实环境的表现方式可将其分为视频透视式头盔显示器和光学透视式头盔显示器。

视频透视式头盔显示器通过头盔上一个或多个摄像机来获取真实世界的实时影像，利用其中的图像处理模块和虚拟渲染模块进行融合，最终将虚实融合后的效果在头盔显示器上显示出来。

微软推出的Hololens增强现实眼镜采用全息技术，结合多个传感器，将虚拟内容投射成全息影像，实现虚实融合。这款眼镜内部集成了中央处理器（CPU）、图形处理器（GPU）和全息处理器（HPU），不需要连接任何其他设备就可以实现与现实世界的交互。Meta公司推出的Meta2同样是一款高沉浸感的增强现实眼镜，其较Hololens 具有更大的视场角，但追踪保真度仍有待优化，且在使用过程中需要连接电脑进行计算。图4为Hololens增强现实眼镜与Meta2增强现实眼镜外观。

图4 Hololens增强现实眼镜（a）与Meta2增强现实眼镜（b）

光学透视式头戴显示器根据光的反射原理，通过多片光学镜片的组合，为用户产生虚拟物体和真实场景相互融合的画面。与视频透视式头盔显示器相比，光学透视式头盔显示器在显示增强画面时，不需要经过图像融合的过程，用户看到的影像就是当前的真实场景与虚拟信息的叠加。

Google公司推出的Google Glass是一款光学透视式头盔显示器，其经过光学放大后将数据通过棱镜显示给用户（图5（a））。Google Glass可以通过声音控制，实现拍照、视频通话、全球定位系统（GPS）定位、文字处理、收发邮件等多种功能。Magic Leap公司发布了一款基于光场的头戴式增强现实设备Magic Leap One（图5（b））。这款设备利用外部摄像头和计算机视觉处理器实时追踪用户位置，同时在追踪过程中可以不断调整双眼的焦距，并将包含有深度信息的图像通过光场显示器显示出来。

图5 Google Glass（a）与Magic Leap One（b）

2）计算机屏幕显示设备

计算机屏幕显示设备作为传统的输出设备一般具有较高的分辨率，且体积较大。在增强现实应用中，这类设备更适用于将精细虚拟物体渲染并叠加于室内或大范围场景中。由于这类设备沉浸感较弱，但价格较低，一般适用于低端或多用户的增强现实系统。

3）手持式移动显示设备

手持式移动显示设备是一类允许用户手持的显示设备。近年来智能移动终端发展迅速，现有的智能手持设备大都配备了摄像头、全球定位系统（GPS）和陀螺仪、加速度计等多种传感器，更具备了高分辨率的大显示屏，这为移动增强现实提供了良好的开发平台。与头盔式显示设备相比，手持式移动显示设备一般体积较小、重量较轻，便于携带，但沉浸感较弱，同时由于硬件的限制，不同设备的计算性能参差不齐。目前，随着iOS系统下的增强现实平台ARKit和Android系统下的增强现实平台ARCore的发布，后续的多数新款智能移动终端将支持增强现实技术。

4）投影显示设备

投影显示设备可以将增强现实影像投影到大范围环境，满足用户对大屏幕显示的需求。由于投影显示设备生成图像的焦点不会随用户视角发生变化，其更适用于室内增强现实环境。微软研究院的RoomAlive项目将Kinect、投影仪、摄像机和计算机结合起来，通过构建房间的三维图像将虚拟影像投影到整个房间，同时通过定位用户位置实现与虚拟世界的交互。

人机交互技术

增强现实系统的目标是构建虚实融合的增强世界，使用户能够在现实世界中感受到近乎真实的虚拟物体，并提供人与这一增强的世界交互。在这一过程中，人机交互方式的好坏很大程度上影响了用户的体验。一般来说，传统的交互方式主要有键盘、鼠标、触控设备、麦克风等，近年来还出现了一些更自然的基于语音、触控、眼动、手势和体感的交互方式。

1）基于传统的硬件设备的交互技术

鼠标、键盘、手柄等是增强现实系统中常见的交互工具，用户可以通过鼠标或键盘选中图像中的某个点或区域，完成对该点或区域处虚拟物体的缩放、拖拽等操作。这类方法简单易于操作，但需要外部输入设备的支持，不能为用户提供自然的交互体验，降低了增强现实系统的沉没感。

2）基于语音识别的交互技术

语言是人类最直接的沟通交流方式。语言交互信息量大，效率高。因此，语音识别也成为了增强现实系统中重要的人机交互方式之一。近年来，人工智能的发展及计算机处理能力的增强，使得语音识别技术日趋成熟并被广泛应用于智能终端上，其中最具代表性的是苹果公司推出的Siri和微软公司推出的Cortana，它们均支持自然语言输入，通过语音识别获取指令，根据用户需求返回最匹配的结果，实现自然的人机交互，很大程度上提升了用户的工作效率。

3）基于触控的交互技术

基于触控的交互技术是一种以人手为主的输入方式，它较传统的键盘鼠标输入更为人性化。智能移动设备的普及使得基于触控的交互技术发展迅速，同时更容易被用户认可。近年来，基于触控的交互技术从单点触控发展到多点触控，实现了从单一手指点击到多点或多用户的交互的转变，用户可以使用双手进行单点触控，也可以通过识别不同的手势实现单击、双击等操作。

4）基于动作识别的交互技术

基于动作识别的交互技术通过对动作捕获系统获得的关键部位的位置进行计算、处理，分析出用户的动作行为并将其转化为输入指令，实现用户与计算机之间的交互。微软公司的Hololens采用深度摄像头获取用户的手势信息，通过手部追踪技术操作交互界面上的虚拟物体。Meta公司的Meta2与Magic Leap公司的Magic Leap One同样允许用户使用手势进行交互。这类交互方式不但降低人机交互的成本，而且更符合人类的自然习惯，较传统的交互方式更为自然、直观，是目前人机交互领域关注的热点。

5）基于眼动追踪的交互技术

基于眼动追踪的交互技术通过捕获人眼在注视不同方向时眼部周围的细微变化，分析确定人眼的注视点，并将其转化为电信号发送给计算机，实现人与计算机之间的互动，这一过程中无需手动输入。Magic Leap 公司的Magic Leap One在眼镜内部专门配备了用户追踪眼球动作的传感器，以实现通过跟踪眼睛控制计算机的目的。
责任编辑人：CC

阅读全文