0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Maxine改善实时通信应用程序

星星科技指导员 来源:NVIDIA 作者:About Gordana Neskovi 2022-03-31 16:19 次阅读

实时通信应用程序(如虚拟协作和内容创建应用程序)的音频视频质量是衡量用户实时通信体验的真正标准。他们严重依赖网络带宽和用户设备质量。

狭窄的网络带宽和低质量的设备会产生不稳定且嘈杂的音频和视频输出。由于用户同时产生和消费音频和视频,因此可损坏流的数量增加,这一问题往往变得更加复杂。用户通过部署内容创建工具进一步加剧了音频和视频拥塞。

为了使您能够增强实时通信应用程序的实时音频和视频质量, NVIDIA Maxine提供 GPU – 加速 SDK 来执行以下操作:

改进标准麦克风和网络摄像头经验通过视频效果、音频效果和 AR SDK 功能。

支持将多个音频、视频和增强现实功能实时链接到端到端管道中使用 Maxine 构建新的或集成到已构建的端到端管道中。

包括转录和翻译当与 NVIDIA Riva一起使用 Maxine 时,这是一个用于构建对话 AI 应用程序的 SDK 。

简言之, Maxine 为具有高音频和视频质量的虚拟协作和内容创建应用程序提供了最高的性能,无论是在 PC 机、内部部署还是在具有 GPU 的云数据中心

在本文中,您将了解:

用户在使用 Maxine SDK 进行实时通信应用时体验到的音频和视频增强功能。

使用 Maxine 、 NVIDIA 视频编解码器 SDK和 Riva 构建端到端管道的好处。

Maxine SDK 的真实示例在视频会议、内容创建和实时流媒体应用程序中提供了集成功能。

poYBAGJFZBCAOmE8AACOrFdcRfw619.png

图 1 与 Maxine 和 Riva SDK 的端到端管道

将标准音频和视频设备转换为智能设备

NVIDIA Maxine 由视频特效 SDK 、音频特效 SDK 和 AR SDK 组成,具有 GPU – 经过数十万小时培训开发的最先进的人工智能加速功能。

使用Maxine 视频效果 SDK,您可以将标准网络摄像头输入转换为高质量视频。视频改进如下:

图像更清晰,细节更丰富,通过 Maxine 超分辨率和放大功能实现。

显著降低网络摄像头传感器类型、曝光和低照度造成的视频噪音集成了 Maxine 视频降噪功能。

块状伪影、响声和蚊子噪音消除应用 Maxine 伪影减少功能。

用户选择的虚拟背景,通过虚拟背景功能启用(图 2 )。

有关如何使用标准网络摄像头输入运行这些效果并将其集成到应用程序中的更多信息,请参阅将嘈杂的低分辨率视频转换为高质量视频,为最终用户带来迷人的体验。

Maxine 音频效果 SDK提供的人工智能模型可以消除几乎任何类型的音频噪音–阻碍窄带、宽带和超宽带音频,并提高通话质量。使用 Maxine 解决音频质量差问题的好处如下:

没有不必要的背景噪音例如交流噪音、建筑噪音、交通噪音或键盘敲击声。有关通过噪声消除功能消除的背景噪声类型的完整列表的更多信息,请参阅关于背景噪声抑制效果。

没有无法理解的声音或声音失真,也就是说,在具有反射表面的大空间中说话时,不会出现混响。通过 Maxine Room 回声消除功能可实现消除。

为了获得更好的端到端质量,您可以组合 Maxine audio effects 功能。有关如何构建具有卓越音质的虚拟协作和内容创建应用程序的更多信息,请参阅为虚拟协作和内容创建应用程序实现无噪音音频。

Maxine 增强现实 SDK使您能够从网络摄像头视频中创建有趣且引人入胜的 AR 效果,并在应用程序中使用这些效果来吸引用户、了解用户情绪或创建 3D 照片逼真的化身。

Maxine AR SDK 提供人脸跟踪、人脸地标跟踪和人脸网格功能(图 3 )。

pYYBAGJFZBKARzIOAAIolF7R8HQ943.png

图 3 。 Maxine AR 人脸相关特征示意图

面跟踪在面周围创建边界框,并随时间跟踪面位置。

人脸地标跟踪识别鼻子、眼睛和嘴唇等面部特征,并实时跟踪它们。

人脸网格用 3D 网格表示人脸, 3D 网格模拟用户实时变化的人脸,可用于人脸身份验证和构建化身。

人脸跟踪和人脸地标跟踪可用于跟踪驾驶员注意力,或用于面罩和眼镜检测应用。

使用 Maxine Body Pose Estimation 功能,您可以创建用于理解用户姿势的应用程序,并将其用于人体活动识别、运动传输和实时虚拟交互。

快速构建实时的端到端管道

在构建音频和视频管道时,开发人员通常自定义 AI 模型以实现所需的音频和视频效果。此外,他们的管道必须支持多种平台,如嵌入式、 PC 和服务器,还必须满足低延迟和高吞吐量的视频处理要求。事实证明,这样的管道是计算密集型的。通常在运营成本和音频和视频流质量之间进行权衡。

NVIDIA Maxine 及其周围的生态系统完全有能力应对这一挑战。通过利用 NVIDIA GPU s 提供的加速功能和最先进的 AI 模型功能,您可以构建提供更好用户体验的应用程序,同时管理相关成本。这就是它的工作原理

Maxine AI 功能

NVIDIA Maxine 的核心是三个 SDK ,它们提供多种 AI 功能。这些功能提高了视频分辨率,消除了音频和视频中的噪音,并提供了独特的功能。

围绕 Maxine 的 NVIDIA 生态系统由两个关键产品 NVIDIA 视频编解码器 SDK和 NVIDIA Riva 组成。

使用视频编解码器 SDK ,您可以访问提供硬件加速编码和解码功能的 NVNC 和 NVDEC API

使用 NVIDIA Riva ,您可以构建对话 AI ,通过提供转录和翻译等功能来帮助增强虚拟协作体验。

所有这些特性都是 GPU 加速的,因此可以处理的介质量远远高于基于 CPU 的管道。

例如,考虑一下德国的一个生产层经理,他与美国的高管们在关键业务决策上进行远程互动。工厂往往位于互联网连接有限的偏远地区,生产车间往往是淹没在大量背景噪音中的大房间。

使用 Maxine 噪音消除功能,经理可以消除生产车间的背景噪音。

通过消除房间回声,他们可以消除音频混响。

通过 Riva 翻译,生产车间经理和高管可以用他们喜欢的语言进行沟通。

通过视频噪声消除和超分辨率,一个嘈杂的 360p 视频被转换成清晰的 1440p 视频。

经理可以用干净的背景掩盖生产车间的杂乱。

图 4 强调了使用和不使用 Maxine 时用户体验的巨大差异。

poYBAGJFZBKABZSfAACaSz_T9ps389.png

图 4 具有 Maxine 生态系统的视频会议管道:Maxine,视频编解码器和Riva

模块化 Maxine 设计产品的优势在于,您可以轻松选择和集成现有管道中所需的 SDK ,或者从头开始构建新的端到端管道。 Maxine 和围绕 Maxine 的生态系统使您能够快速构建一个高吞吐量的端到端管道,接收嘈杂的数据流,并将其实时转换为一种无噪音、高质量、高实用性的体验,可供所有设备使用。

使用 Maxine SDK 的增压应用程序的真实示例

为了展示如何集成 Maxine 特性,我们选择了几个实际示例,每个主要用例一个。

阿瓦亚空间

阿瓦亚空间是一个基于 CPaaS 的现代会议和工作流协作平台,提供高清晰度视频会议、视频合成、会议录制、实时转录和云级别的持久协作。

Avaya 的目标是实现大规模提供实时、高质量媒体服务的民主化,无论用户的设备质量如何,也不管用户在世界各地的位置如何,以浏览器为第一体验。为了实现这些目标并优化媒体处理, Avaya 将底层基于云的 CPaaS 与 NVIDIA Maxine 技术相结合。

通过将一系列 GPU 连接到容器和虚拟机的云部署,可实现 100% 的正常运行时间。服务器根据需求进行旋转,便于与数千名参与者进行大规模、实时、双向视频交互会议。

Avaya 使用 Maxine Noise Remove 功能来满足计算成本高、延迟有限的预算,以满足人们对干净清晰的音频的需求,而无背景噪音,并且由于设备质量低和网络性能差,对音频和语音间隙的容忍度较低。与传统的 DSP 方法相比, Maxine 噪声消除功能更强大,涵盖范围更广。它可以在不在端点上运行的情况下实现低延迟,但尽可能靠近网络边缘。此外,由于基于 AI 的算法延迟低于 40ms ,因此音频管道中没有缓冲。

Avaya 还使用独特的 Maxine 虚拟背景功能,将多个扬声器叠加在演示文稿上,以获得更具吸引力的演示文稿。最终用户不必拥有特殊的硬件下载任何软件。他们可以在任何设备上实现这一点,并且可以灵活地创建不同类型的布局。

借助 Maxine 虚拟背景功能, Avaya 为移动和处于复杂体位的扬声器提供强大的视频分割。有关 Maxine 如何使 Avaya 提供专业、高质量、无处不在、可从任何平台访问的最终用户体验的更多信息,请参阅 Avaya 最近的 GTC 课程 NVIDIA 的 Maxine 如何改变我们的沟通方式。

Notch

Notch是一种用于 3D 、 VFX 和实时事件视觉效果的实时图形工具。为舞台表演创造效果通常需要一个单独的昂贵摄像头和跟踪解决方案来跟踪身体运动。在某些情况下,生成视觉效果对于处理完整的摄影机提要(包括背景)变得很棘手。

通过 Maxine 实时人脸跟踪和身体姿势估计功能, Notch 使艺术家能够通过减少对定制硬件跟踪系统的需求,大大简化现场活动舞台的设置。取而代之的是,凹口可以使用标准的摄像设备。用户可以进一步使用骨骼体数据的运动捕捉装备来控制 3D 角色动画。

通过 Maxine AI 驱动的虚拟背景功能, Notch 用户可以创建视频处理效果,将人与背景分开,并将处理仅应用于舞台上的人才或背景本身。这一简单的过程具有高分辨率和精度,适用于复杂条件,如深色衣服和复杂的照明条件。有关更多信息,请参阅演示视频切口 0 。 9 。 23 。 195 NVIDIA 贴片释放走查。

Be.Live

另一个使用 Maxine 虚拟背景功能的例子是在实时流媒体空间。Be.Live是一个实时流媒体工作室,帮助企业、 SMB 和零售商创建专业的实时流媒体,而无需学习曲线。它们在云中运行与虚拟背景相关的所有进程。

无论是希望与观众建立联系的小企业,还是建立雇主与雇员沟通的企业, Maxine 和 Be 。 Live 都提供了一种解决方案,使顶层背景删除在主机后面没有绿色屏幕。除了享受高质量的背景,无需升级网络摄像头和工作室设置,用户还可以节省计算能力,体验更好的流媒体体验。

Be 。 Live 的目标是在 Live Commerce 生态系统中实施 Maxine 虚拟背景创新,因为该技术可以帮助许多品牌在无需太多投资的情况下启动其实时购物流。

关于作者

About Gordana Neskovic

Gordana Neskovic 是AI/DL产品营销团队的成员,负责 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor担任过各种产品营销、数据科学家、AI架构师和工程职位。她拥有博士学位。圣塔 Clara 大学,塞尔维亚贝尔格莱德大学电气工程硕士和学士学位。

About Tanay Varshney

Tanay Varshney 是 NVIDIA 的一名深入学习的技术营销工程师,负责广泛的 DL 软件产品。他拥有纽约大学计算机科学硕士学位,专注于计算机视觉、数据可视化和城市分析的横断面。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4682

    浏览量

    102115
  • 扬声器
    +关注

    关注

    29

    文章

    1230

    浏览量

    60413
  • 应用程序
    +关注

    关注

    37

    文章

    3170

    浏览量

    57081
收藏 人收藏

    评论

    相关推荐

    借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。
    的头像 发表于 05-29 09:22 206次阅读

    应用程序中的服务器错误怎么解决?

    在使用应用程序时,可能会遇到服务器错误的问题。这种错误通常会导致应用程序无法正常运行 ,给用户带来不便。下面将介绍应用程序中的服务器错误及其解决方法,帮助您快速解决这一问题。
    的头像 发表于 03-12 15:13 1862次阅读

    LTE MQTT通信应用程序说明

    电子发烧友网站提供《LTE MQTT通信应用程序说明.pdf》资料免费下载
    发表于 02-21 10:47 0次下载
    LTE MQTT<b class='flag-5'>通信</b><b class='flag-5'>应用程序</b>说明

    通过实时加速器技术实现实时应用程序的 Windows

    功能应用程序。这是通过专门为实时应用程序保留一个或多个CPU来实现的,设置 Windows 适当的参数化并利用 acontis 内核驱动程序进行精确定时和直接硬件
    的头像 发表于 01-29 16:03 552次阅读
    通过<b class='flag-5'>实时</b>加速器技术实现<b class='flag-5'>实时</b><b class='flag-5'>应用程序</b>的 Windows

    开发java应用程序的基本步骤是

    ava是一种面向对象的编程语言,广泛用于开发各种类型的应用程序。在开发Java应用程序时,有一些基本步骤需要遵循,以确保应用程序的正确性和可靠性。 1.确定需求:这是开发任何应用程序
    的头像 发表于 11-28 16:52 917次阅读

    利用MPLAB Harmony v3实时更新PIC32MZ MCU上的应用程序

    电子发烧友网站提供《利用MPLAB Harmony v3实时更新PIC32MZ MCU上的应用程序.pdf》资料免费下载
    发表于 09-19 17:02 0次下载
    利用MPLAB Harmony v3<b class='flag-5'>实时</b>更新PIC32MZ MCU上的<b class='flag-5'>应用程序</b>

    利用MPLAB Harmony v3实时更新SAM E54 MCU上的应用程序

    电子发烧友网站提供《利用MPLAB Harmony v3实时更新SAM E54 MCU上的应用程序.pdf》资料免费下载
    发表于 09-19 16:39 0次下载
    利用MPLAB Harmony v3<b class='flag-5'>实时</b>更新SAM E54 MCU上的<b class='flag-5'>应用程序</b>

    使用 NVIDIA DOCA 2.2 加速数据中心工作负载和 AI 应用程序

    NVIDIA DOCA SDK 和加速框架为开发者提供了丰富的库、驱动程序和 API,以便为 NVIDIA BlueField DPU 和 ConnectX 智能网卡创建高性能应用程序
    的头像 发表于 09-05 19:40 449次阅读
    使用 <b class='flag-5'>NVIDIA</b> DOCA 2.2 加速数据中心工作负载和 AI <b class='flag-5'>应用程序</b>

    FreeRTOS队列创建任务间通信的基本应用程序

    应用程序 : 此代码是 FreeRTOS 队列创建任务间通信的基本应用程序 。 BSP 版本: M480系列 BSP CMSIS V3.04.000 硬件: NuMaker-PFM-M487
    发表于 08-30 07:56

    FreeRTOS队列创建任务间通信的基本应用程序

    应用程序 : 此代码是 FreeRTOS 队列创建任务间通信的基本应用程序 。 BSP 版本: M480系列 BSP CMSIS V3.04.000 硬件: NuMaker-PFM-M487
    发表于 08-22 07:12

    使用 NVIDIA DOCA GPUNetIO 实现实时网络处理功能

    GPU 提供的高度并行计算可以利用网络流量的实时处理。在这些类型的应用程序中,优化的数据包获取或传输可以避免瓶颈,并使整体执行能够跟上高速网络的步伐。 在这种情况下,DOCA GPUNetIO
    的头像 发表于 08-16 20:05 385次阅读
    使用 <b class='flag-5'>NVIDIA</b> DOCA GPUNetIO 实现<b class='flag-5'>实时</b>网络处理功能

    SIGGRAPH 2023 | NVIDIA 扩展 Maxine 视频编辑功能,展示 3D 虚拟会议研究成果

    Maxine 的生产版本现已在 NVIDIA AI Enterprise 中推出;研究演示示范了 3D 技术如何提升视频通信的质量。 在 NVIDIA
    的头像 发表于 08-10 20:15 598次阅读

    PreEmptiveProtection:全面的移动应用程序保护

    应用程序,您的应用程序可能会给您的组织带来风险。例如,黑客可以使用反编译器或反汇编器对您的安卓或iOS应用程序进行逆向工程,调试你的应用程序,在它们执行时进行检查,甚至捕获
    的头像 发表于 07-06 10:42 407次阅读

    Preemptive 全面的移动应用程序保护

    由于黑客越来越多地将目标对准消费者和企业移动应用程序,您的应用程序可能会给您的组织带来风险。例如,黑客可以使用反编译器或反汇编器对您的安卓或iOS应用程序进行逆向工程,调试你的应用程序
    的头像 发表于 07-06 10:41 446次阅读
    Preemptive 全面的移动<b class='flag-5'>应用程序</b>保护

    创建端到端零售愿景AI应用程序

    使用 NVIDIA DeepStream 和 NVIDIA TAO 工具包构建端到端零售分析应用程序
    的头像 发表于 07-05 16:30 297次阅读
    创建端到端零售愿景AI<b class='flag-5'>应用程序</b>