SoftBank 是一家致力于推动信息革命的全球技术公司。该公司经营宽带、固定线路电信、电子商务、信息技术、金融、媒体和营销。为了改善用户的通信体验,并克服 5G 容量和覆盖问题,软银使用了 NVIDIA Maxine GPU- 具有最先进人工智能功能的加速 SDK 来构建虚拟协作和内容创建应用程序。
在本文中,您将了解软银如何使用 Maxine 超分辨率和硬件加速的编解码操作来减少必须上传到多址边缘计算( MEC )服务器的数据量。除了解决有限带宽的挑战外, Maxine 功能(如噪音消除和虚拟背景)使软银能够为用户提供最佳的视频会议解决方案。
使用 MEC 的好处
边缘计算使提供商能够将其技术部署到更接近用户的位置。简单地说,边缘计算减少了关键任务、高吞吐量、低延迟应用程序的带宽和延迟预算。这是通过使用 MEC 网络技术将计算从远程云服务器移动到更靠近消费源的节点来实现的。边缘计算在很大程度上依赖于网络技术,如 4G ,以及最近的 5G ,以提供连接性。
图 1 涉及 MEC 服务器的管道的简化概述
5G 功能(如超高速、超低延迟和多个同时连接)支持新的使用案例,如远程医疗和智能工厂,这些都是以前无法通过无线连接实现的。 MEC 是实现低延迟、高吞吐量用例支持的关键。 MEC 通过部署区域 MEC 服务器并仅向云发送最低限度的必要数据,在边缘尽可能多地进行处理,从而减少响应延迟。 MEC 服务器通常使用 GPU 大规模并行计算能力以高速处理大量数据。
5G 网络的挑战
当前的 5G 网络以一种称为非独立( NSA )的配置运行。此配置结合了 4G LTE 网络和 5G 基站,其中某些 5G 功能(如网络切片)不可用。 5G SA (独立)配置具有 5G 核心和基站。 5G SA 对 5G 的端到端支持加快了服务速度,降低了成本,提高了服务质量,是部署服务的更好平台。
当 5G SA 配置上市时,完整的 5G 网络就完成了。换言之, 5G 分两步发展: 5G NSA 和 5G SA 。每一步都需要资本投资。
另一方面,包括软银在内的一些电信运营商已经开始在 4G LTE 和 5G NR 中使用 4G LTE 低频段频率。理论上,容量和覆盖率是无线通信中的权衡。为了确保 5G SA 配置的高质量广域覆盖,软银使用 MEC 尽可能有效地减少服务延迟。
图 2 5G 频率中容量和覆盖率之间的权衡
此外,还有一些技术挑战。移动网络通常被设计为适应比上行链路更高的下行链路速度。这种设计理念适用于一般应用,如智能手机上的流媒体视频,因为大部分流量是下行链路。然而,一些关键应用需要强大的上行链路连接。其中之一是视频会议,用户需要相当大的上行带宽来传输高分辨率视频和音频。
当前 5G 上行链路容量不足,需要载波聚合和 MIMO 天线来提供更多的上行链路分配。随着越来越多的设备连接到 5G ,节省带宽,特别是在上行链路中,是所有全球电信运营商面临的共同挑战。
上行链路带宽密集型应用,例如视频会议,可以在减少的上行链路带宽(例如, 500 Kbps )下以与充足带宽( 100 Mbps )相同的服务质量来服务。在这些情况下,可以连接更多的设备,同时提供高质量的服务。
基于 NVIDIA Maxine 的 MEC视频会议解决方案
NVIDIA Maxine 是一个 GPU 加速 SDK 平台,它使视频会议服务的开发人员能够构建和部署使用云中最先进模型的人工智能功能。 Maxine 包括使用 NVIDIA 研究的最新创新的 API ,如伪影减少、身体姿势估计、超分辨率和噪声消除。 Maxine 还使用其他产品,如 NVIDIA Riva,来提供封闭字幕和访问虚拟助理等功能。这些功能在 NVIDIA GPU 上得到充分加速,以便在云中运行实时视频流应用程序。
Maxine 应用程序使服务提供商能够在任何设备(包括计算机、平板电脑和手机)上为每个用户提供相同的功能。关键的一点是,所有的处理都是在云上进行的,因此在任何设备上运行的应用程序都需要最少的资源。使用 Maxine 构建的应用程序可以轻松部署为微服务,并在 Kubernetes 环境中扩展到数十万个流。
其想法是减轻视频会议系统中涉及的计算密集型处理,减少必须上传到 MEC 服务器的数据量。这是通过超分辨率和硬件加速编解码操作等视频效果的组合来实现的。 Maxine 还增加了生活质量功能,如噪音消除、虚拟背景、房间回声消除等。
这对最终用户意味着什么?基本上,具有低带宽连接的终端用户在现场工作时会受到各种背景噪音的干扰,因此可以连接到干净的音频和高清晰度视频。例如,一个工厂经理在一个嘈杂的生产车间,在一个有 180p 流连接的偏远地点,似乎在一个有 720p 流的安静会议室里。计算资源的卸载也意味着终端用户可以在资源有限的设备(如手机和笔记本电脑)上执行多任务,从而延长电池寿命和更多可用内存。
前面提到的功能包含在以下SDKs中:
视频效果 SDK
音频效果 SDK
增强现实 SDK
此外, NVIDIA 视频编解码器 SDK 提供硬件加速编码和解码,以帮助视频会议周围的基础设施。
图 4 Maxine AI 人脸编解码器概述
软银如何使用 NVIDIA Maxine
通常,如果要在移动电话上使用视频会议解决方案,必须首先安装客户端应用程序。就软银而言, Zoom 客户端安装在运营商网络上的 MEC 服务器上,而不是移动电话上。移动电话的视频和麦克风输出通过 5G 网络输入到 MEC 上的 Zoom 客户端。 MEC 将智能手机的麦克风和摄像头识别为虚拟麦克风和摄像头,并将其用作 Zoom 客户端的输入。
图 5 软银和 Maxine POC :概览图
以下是用于软银概念验证实施的硬件和软件规范:
Hardware
GPU :Quadro RTX6000(驱动程序版本: 456 。 43 )
Software
Windows 服务器 2019
WebRTC 本机客户端 Momo
CUDA11 。 1
NVIDIA Maxine 视频效果 SDK( 2021 年 3 月 25 日 -VFX 预发布)
NVIDIA Maxine 音频效果 SDK EA
这项工作使用了软银的 MEC 服务器( Windows )、一个改进的基于 C ++的开源 WebRTC 客户端“ WebRTC 客户端 Momo ”,以及一个使用视频效果 SDK 和音频效果 SDK API 的应用程序。
AudioEffectSDK 中的NvAFX_RUN API (NVAFX_EFFECT_DENOISER)和视频效果 SDK 中的NvVFX_RUN API (NVVFX_FX_SUPER_RES)用于执行视频超分辨率和噪声消除。
图 6 视频效果 SDK API 的示例代码
图 7 Audio Effects SDK API 的示例代码
使用 WebRTC 协议从 5G 用户设备发送的视频流以低比特率(在此验证中, H 。 264 ( CBR ) 180p )上传到 MEC ,以节省上行链路带宽。 MEC 以低比特率接收降级的音频和视频,并使用 Maxine SDK 提高质量。对于视频, MEC 服务器使用 Maxine SuperResolution功能将从用户设备以 180p 发送的视频调整为 720p 。SuperResolution降低噪音并恢复高频分量,从而产生高质量的视频。
图 8 显示了SuperResolution的结果。
图 8 原始块状图像(左半部分)与应用 Maxine AI 功能后的图像(右半部分)
在图 8 中,左侧是应用SuperResolution之前的原始数据,右侧是放大的图像。面部细节中的块状伪影被替换为更多像素,从而生成高质量图像。您可以使用随 Video Effects SDK 提供的示例应用程序复制这些结果。有关完整演示,请参见a Maxine 前/ Maxine 后视频。
与超分辨率结果一样,视频中将显示噪声消除结果。
视频显示了用户在键盘上打字时说话的场景中测试 Maxine 噪音消除功能的结果。在这里,选择键盘声音作为样本,但在软银 PoC 的整个开发过程中,噪音消除在各种情况下也很有用。软银认为,噪音消除使嘈杂的环境会议成为可能,如户外或汽车会议。
您可以使用 Audio Effects SDK 提供的示例应用程序复制这些结果。
提高视频流的质量
通过在 MEC 服务器上部署 Maxine ,除了低延迟外,软银现在还为所有最终用户提供高质量的视频和音频体验。由于不需要额外的硬件或用户设备,因此通过上行链路带宽的高节省实现了改进的最终用户体验。为了进一步提高视频质量,软银计划使用 Maxine AI 人脸编解码器。
关于作者
Mana Murakami 是 NVIDIA 的高级解决方案架构师。她专注于向日本的电信客户加速基于 AI 、 GPU 的 vRAN 和 GPU 计算。 Mana 于 2015 年加入 NVIDIA ,担任 CUDA 工程师,并担任将 GPU 计算推广到 HPC 和制造业的技术领导。在加入 NVIDIA 之前,她从事图像处理的研究和开发,如色度键控和超分辨率。
Tanay Varshney 是 NVIDIA 的一名深入学习的技术营销工程师,负责广泛的 DL 软件产品。他拥有纽约大学计算机科学硕士学位,专注于计算机视觉、数据可视化和城市分析的横断面。
审核编辑:郭婷
-
解码器
+关注
关注
9文章
1131浏览量
40680 -
NVIDIA
+关注
关注
14文章
4940浏览量
102818 -
计算机
+关注
关注
19文章
7425浏览量
87719
发布评论请先 登录
相关推荐
评论