沉浸式音频的未来：计算机视觉辅助下的声音重现-电子发烧友网

Santosh Singh 和 Aravind Navada

消费类娱乐对沉浸式体验的要求越来越高，用户希望获得身临其境的体验并消费内容，声音则是临场感的重要组成部分。在未来，我们将更了解人类大脑处理和定位声音的方式，由此开发出创新的声音重现技术，助力基于视觉智能的音频系统。ADI 公司将依托前沿的飞行时间(ToF)成像器和先进的DSP技术组合，为新一代沉浸式音频系统构建理想的平台。

新时代消费电子娱乐设备频频提到"沉浸"一词，但其真正含义是什么呢？在1999年爆火的电影《黑客帝国》中，Morpheus询问Neo他能闻到、尝到或触摸到的东西是否真实，并展示他所知的真实世界不过是用计算机愚弄人的感官而已。这就是真正的沉浸式体验，亦是人工沉浸式体验要达成的目标。

要让自己确信已置身于某个场景中，声音和感触方式是影响整个体验的关键。声音会激活大脑，决定着我们应对情境的第一反应。大脑利用声音来更清晰地构建所处的环境或情境。声音说服大脑相信人工构建的沉浸式体验，在提供预期的沉浸式体验方面发挥着至关重要的作用。

多年来，声音重现技术取得了巨大飞跃，从基础的单声道音频系统到如今的环绕音频系统，从适合家庭影院的小型5.1（6声道）或7.1（8声道）配置到适合影院屏幕的大型64声道和更高级别的配置。但在这些系统中，声音的空间感和精度受到扬声器数量和所处位置的限制。

新型声音重现技术基于对大脑声音处理和定位方式的深入了解，助力构建新一代沉浸式音频系统，无需在听众周围部署大量扬声器。即可为家庭影院带来360度沉浸式声音体验，但此类系统由于缺乏对听众及听音环境的感知，这便也成为了沉浸式音频需求的主要障碍。视觉智能与声音重现技术的组合可应对这一挑战，真正打造出下一代沉浸式音频系统。

在真实场景中自然接收声音时，我们的大脑会基于传到左右耳的音频信号来提取有关声源的空间线索。这与我们的双眼视觉系统的工作原理非常相似，大脑也是通过结合左右眼所看到的图像来感知深度。大脑处理到达左右耳的声音，通过比较振幅和时间延迟来推算声源位置。这是人类在进化过程中形成的能力，也是原始社会的关键生存技能。

双耳声音重现技术旨在通过新型信号处理，在左右耳生成与真实场景相同的左右音频信号，再现声音的自然体验（图1）。但在实践中实现这一目标并非易事，会面临重重问题。

图1. 来自声源x(t)的自然接收场景，XL (t)表示到达左耳的音频信号，XR (t)表示到达右耳的音频信号。

记录双耳音频的一种简单方法是在真实环境中人的左右耳各部署一个麦克风，然后记录到达每只耳朵的声音信号，这种方法称为双耳记录。然后通过耳机重现声音，传至听众的耳朵。那这种方式效果如何呢？在针对同一位听众进行捕捉和回放时确实有效，但由于每个人大脑定位声音的方式不同，这一技术并非百试百灵。我们的头/耳廓/身体对声音的影响会在频域中留下特定的特征，帮助我们的大脑定位声音。这种特征因人而异，被称为头部相关传递函数(HRTF)。如想让双耳技术真正有效，须在声音重现过程中听众的耳朵上准确再现HRTF对声音的影响。

因此，我们需要针对每位听众测量并定制HRTF，不能采用通用的解决方案。研究表明，当人们体验用其他人的HRTF制作的音频时，其在体验期间的声音定位能力会显著降低。1,2,3

在扬声器上实现双耳音频还会面临更大的挑战。首先，来自多个扬声器的声音信号会相互干扰，即所谓的串扰效应（图2）。其次是听音环境，在声音到达听众耳朵之前，它不可避免地会对声音产生一些影响。

图2. 立体声扬声器中的串扰效应。

在实现真实模拟自然声音接收体验时，扬声器串扰、HRTF个性化需求以及房间/听音环境的影响是主要的阻碍因素。而视觉系统能够捕捉到有关听众和听音环境的所有细节，有助于解决双耳声音重现所面临的挑战。

例如，可以构建为计算机视觉算法提供数据的摄像头来捕捉声音接收环境的三维架构信息（即房间形状、不同表面的几何测量细节以及存在的物体），用于计算听音环境对声音的影响。然后，可以在声音重现系统中适当增加滤波器和滤波器系数以消除不良影响。虽然家庭影院音频已采用此类系统，但它通常依赖于在校准期间使用麦克风捕捉房间对声音的影响，如果接收位置或房间结构发生变化，则需要重新进行校准。

视觉系统可以进一步捕捉人体测量数据，比如身体位置和结构细节4，通过必要的计算将HRTF个性化，以呈现准确的空间线索（图3）。使用听众头部位置相对于扬声器的信息和头部尺寸，部署串扰消除算法，在扬声器中呈现实时双耳音频，听众能够随意移动，同时保持理想的声音体验（图4）。

图3. 通过人体测量实现HRTF个性化。

图4. 采用串扰消除技术，通过自由场扬声器系统实现双耳声音再现。

使用音频系统存在隐私问题，但从视觉系统获取的摄像头数据会经过实时处理，无需存储或传输到另一台远程机器，因此，使用专用的计算处理器在边缘处理视觉数据分析可以保护用户隐私。

ADI最新的多核SHARC® DSP和先进的ToF成像器提供了硬件平台实现音视频融合所需的关键部件，以创建下一代沉浸式音频系统（图5）。

图5. 下一代沉浸式音频系统。

我们的ADSP-SC598 SOC搭载SHARC双核和一个A55 Arm®内核，由大型片内存储器和外部存储器DDR 接口提供支持，可满足低延迟和内存密集型计算要求，是实现真正沉浸式音频的理想平台（图6）。SHARC DSP上的计算资源，例如ADSP-SC598，可以将与音频解码相关的工作负载划分至DSP内核上，在第二个SHARC内核上实现音频回放的后处理和个性化。Arm A55可用于进行多种控制处理。6图5所示的视觉系统可以组合使用RGB和深度摄像头或单独使用深度摄像头。我们的高分辨率100万像素ToF深度成像器ADSD3100可以捕捉毫米分辨率级别的深度图，且能在不同的照明条件下工作，为之前所述的个性化算法（串扰消除、房间均衡、HRTF人性化等）提供了所需的高精度几何测量数据。

图6. 下一代沉浸式音频系统的系统分区。

ADTF3175是基于ADSD3100 ToF深度成像器的100万像素、75 × 75度视场(FOV) ToF模块，它还集成了用于成像器的透镜和光学带通滤波器、红外光源（包含光学元件、激光二极管、激光二极管驱动器和光电探测器）、闪存和功率调节器以生成本地电源电压。该模块在多个范围和分辨率模式下进行完全校准。如需完善深度测量系统，可以将来自ADTF3175的原始图像数据通过主机系统处理器或深度ISP进行外部处理。ADTF3175图像数据输出接口通过4通道移动行业处理器接口(MIPI)、摄像头串行接口2 (CSI-2)变送器接口与主机系统进行电气接口。该模块编程和操作通过4线式SPI和I2C串行接口进行控制。

我们当前提供的 EVAL-MELODY-8/9开发平台板、 EV-2159X/SC59x-EZKIT板和 CrossCore®Embedded Studio（一款基于eclipse的编辑工具）可以帮助您部署和运行我们的ADSP SOC，以实时部署和调试应用。7

Melody平台是ADI为AVR和条形音箱应用提供的完整信号链解决方案。它将视频、DSP、音频、电源和软件方面的一流ADI组件结合到组合系统解决方案中，使客户能够利用最新技术快速进入市场，以达到他们的年度升级窗口。8

ToF模块ADTF3175可以连接至视觉计算平台，并连接至Melody板，为下一代沉浸式音频系统构建硬件平台（图7）。RGB摄像头可耦合至ADTF3175 ToF模块，构建RGBD摄像头来进行强化视觉分析。

图7. 使用ADI平台实现沉浸式音频系统。

结论

ADI借助包含DSP、HDMI 收发器、D类放大器和ToF成像器的解决方案系列，持续不懈地追求实现真正沉浸式的音频系统，力求提供与真实世界一般无二的声音。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

dsp

dsp

+关注

关注
554

文章
8066

浏览量
351816
ADI

ADI

+关注

关注
146

文章
45867

浏览量
253607
TOF

TOF

+关注

关注
9

文章
486

浏览量
36649

什么是计算机视觉？计算机视觉的三种方法

计算机视觉是指通过为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机

发表于 11-16 16:38 •4913次阅读

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

感觉量子技术神奇神秘，希望通过阅读此书来认识量子计算机。先浏览一下目录：通过目录，基本可以确定这是一本关于量子计算机的科普书籍，主要包括什么是量子计算机、量子

发表于 03-05 17:37

介绍一下计算机底层知识

我们每个程序员或许都有一个梦，那就是成为大牛，我们或许都沉浸在各种框架中，以为框架就是一切，以为应用层才是最重要的，你错了。在当今计算机行业中，会应用是基本素质，如果你懂其原理才能让你在行业中走

发表于 07-26 06:21

深度学习与传统计算机视觉简介

单板计算机（指所有的逻辑线路、定时线路、内部存储器和外部界面都包含在一块单独的印制板上的一种微算机）上提供嵌入式视觉的各种选项。近年来，随着计算机

发表于 12-23 06:17

基于OpenCV的计算机视觉技术实现

基于OpenCV的计算机视觉技术实现OpencV是用来实现计算机视觉相关技术的开放源码工作库，是计算机视

发表于 11-23 21:06 •0次下载

什么是计算机辅助制造(CAM)

什么是计算机辅助制造(CAM) CAM (computer Aided Manufacturing，计算机辅助制造)的核心是计算机数值控制(简称数控)，是将计算机应用于制造生产过程的

发表于 04-10 12:53 •4889次阅读

计算机视觉与机器视觉区别

　“计算机视觉”，是指用计算机实现人的视觉功能，对客观世界的三维场景的感知、识别和理解。计算机视觉

发表于 12-08 09:27 •1.3w次阅读

计算机视觉的应用

计算机视觉的应用领域主要包括对照片、视频资料如航空照片、卫星照片、视频片段等的解释、精确制导、移动机器人视觉导航、医学辅助诊断、工业机器人的手眼系统、地图绘制、物体三维形状分析与识别及

发表于 04-04 16:01 •8826次阅读

计算机视觉常用算法_计算机视觉有哪些分类

本文主要介绍了计算机视觉常用算法及计算机视觉的分类。

发表于 07-30 17:34 •1.4w次阅读

计算机辅助技术有哪些_计算机辅助技术的应用

计算机辅助技术包括计算机辅助设计、计算机辅助制造、计算机辅助测试和计算机辅助教学等。

发表于 11-17 14:31 •4.1w次阅读

计算机视觉的工作流程

引言 计算机视觉（Computer Vision）自兴起以来就非常迅速且广泛应用于各个领域，比如我们熟悉的且每天都会使用的基于手机摄像头的人脸识别，除此之外，它还可以在自动驾驶领域辅助汽车识别

发表于 12-26 11:00 •6518次阅读

了解计算机视觉发展未来的核心技术

　　随着人工智能越来越多地融入我们的日常生活，计算机视觉技术不断发展。计算机视觉在最新的新闻头条中也变得越来越普遍。

发表于 05-30 09:57 •2339次阅读

计算机视觉的基础概念和现实应用

本文将介绍计算机视觉的基础概念和现实应用，对任何听说过计算机视觉但不确定它是什么以及如何应用的人，本文是了解计算机

发表于 11-08 10:10 •1686次阅读

数控加工计算机辅助编程步骤

数控加工程序可通过手工编程或计算机自动编程来获得。目前计算机自动编程采用图形交互式自动编程，即计算机辅助编程。

发表于 10-18 09:39 •797次阅读

最适合AI应用的计算机视觉类型是什么？

计算机视觉是指为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机

发表于 11-15 16:38 •529次阅读

搜索历史

沉浸式音频的未来：计算机视觉辅助下的声音重现

评论

什么是计算机视觉？计算机视觉的三种方法

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

介绍一下计算机底层知识

深度学习与传统计算机视觉简介

基于OpenCV的计算机视觉技术实现

什么是计算机辅助制造(CAM)

计算机视觉与机器视觉区别

计算机视觉的应用

计算机视觉常用算法_计算机视觉有哪些分类

计算机辅助技术有哪些_计算机辅助技术的应用

计算机视觉的工作流程

了解计算机视觉发展未来的核心技术

计算机视觉的基础概念和现实应用

数控加工计算机辅助编程步骤

最适合AI应用的计算机视觉类型是什么？