0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新版NVIDIA Maxine为实时音频和视频通信铺平道路

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-09-26 09:19 次阅读

抢先体验 AI 微服务在云端提供的优质通信

新版NVIDIA Maxine为实时音频视频通信铺平了道路。无论是参加视频会议、致电客户服务中心,还是进行直播,Maxine 都能够助您实现清晰明确的沟通,增强虚拟交互的效果。

NVIDIA Maxine 是一套由 GPU 加速的 AI 软件开发套件 (SDK) 和云原生微服务,用于部署经过优化和加速的 AI 功能,可达到实时增强音频、视频和增强现实 (AR) 效果的目的。

借助 Maxine 的先进模型,最终用户无需使用昂贵的设备即可改进音频和视频质量。基于 NVIDIA AI 的技术使标准的麦克风和摄像头设备也能够达到这些高质量的效果。

在 GTC 上,NVIDIA 宣布为云原生微服务重新构建 Maxine,并推出了 Maxine 音频效果微服务的抢先体验版。此外,还推出了新的 Maxine SDK 功能,包括发言者聚焦和人脸表情估计,并正式推出了眼神交流功能。NVIDIA Maxine 现在还包含现有 SDK 功能的增强版。

Maxine 实现云原生

Maxine 的云原生微服务允许开发者构建实时 AI 应用。微服务可以独立管理,并在云端进行无缝部署,从而缩短开发周期。

抢先体验版的 Audio Effects 微服务中包含四种先进的音频功能:

背景噪音消除:使用 AI 模型消除多种常见的背景噪音,同时保留说话者的自然声音。

房间回声消除:使用 AI 模型消除音频中的混响,恢复说话者声音的清晰度。

音频超高分辨率:提高音频信号的时间分辨率,改善音频质量。该功能目前支持 8 kHz 到 16 kHz 以及 16 kHz 到 48 kHz 的上采样。

声学回声消除:消除输入音频流中的实时声学设备回声,从而去除不匹配的声对和双声。借助基于 AI 的技术,Maxine 实现了比传统数字信号处理算法更有效的回声消除。

Pexip 是一家领先的企业视频会议和协作解决方案提供商,正在利用 NVIDIA 的 AI 技术将虚拟会议提升到更高水平,为现代员工队伍提供先进的功能。

Pexip 战略联盟高级副总裁 Eddie Clifton 表示:“随着 Maxine 向云原生微服务的转化,我们能够更加轻松地将 NVIDIA 的先进 AI 技术与我们独特的服务器端架构结合起来。这使我们的 Pexip 团队能够为虚拟会议提供更强的体验。”

探索 SDK 的增强功能

Maxine 提供了三款由 GPU 加速的 SDK,能够通过 AI 重塑实时通信的音频、视频和 AR 效果。

音频效果 SDK 可提供多效果、低延迟,以及基于 AI 的音频质量增强算法。发言者聚焦是抢先体验版中的新功能,该功能能够分离前景和背景发言者的音轨,使听众能够更加轻松地识别每种声音。此外,还更新了音频超高分辨率SDK 功能,使其具备更高的质量。

视频效果 SDK 会使用标准网络摄像头输入创建基于 AI 的视频效果。虚拟背景功能已获得更新,增强了时间稳定性,该功能能够分割个人形象并应用由 AI 驱动的背景去除、替换或模糊功能。

AR SDK 基于标准网络摄像头馈送,提供基于 AI 的实时 3D 面部追踪和身体姿态估计。新功能包括:

眼神交流:通过预估和将视线与摄像头对齐来模拟眼神交流。

人脸表情估计:追踪人脸并推断主体所呈现的表情。

更新了以下 AR 功能:

身体姿态估计:以 2D 和 3D 形式预测和追踪人体的 34 个关键点,并且现已支持多人追踪。

面部特征点追踪:使用 126 个关键点来识别面部特征和轮廓。现已可使用“画质”模式来追踪由于头部运动和表情造成的头部姿势和面部变形(实时追踪的自由度为 3 度),实现了更高质量的跟踪效果。

人脸网格:以高达 3000 个顶点和 6 个自由度的 3D 网格表示人脸,并且现在包括USC 创意技术研究所的 3D 可变形模型。

直接体验 Maxine 的惊艳效果。

体验由 AI 的强大功能带来的先进效果

Maxine SDK 和微服务可为您提供一套低延迟的 AI 效果,且可与现有的客户基础设施进行集成。由于 Maxine 的尖端 AI 功能的构建以 NVIDIA AI 平台为基础,并且拥有领先的预训练模型,所以开发者用户可利用其来创建、定制和部署优质的音频和视频质量功能。

Maxine 也是NVIDIA Omniverse Avatar Cloud Engine的一部分,NVIDIA Omniverse Avatar Cloud Engine 是一系列基于云的 AI 模型和服务,可供开发者构建、定制和部署交互式虚拟形象。Maxine 的可定制云原生微服务允许您在 AI 效果制作流程中进行独立部署。而且,您可以在本地、云端或边缘部署 Maxine。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4934

    浏览量

    102794
  • AI
    AI
    +关注

    关注

    87

    文章

    30098

    浏览量

    268382
  • 云原生
    +关注

    关注

    0

    文章

    241

    浏览量

    7937

原文标题:GTC22 | 全新 NVIDIA Maxine 云原生架构可大规模实现突破性影音质量

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    想通过手机音频口实现与MCU的实时通信,有没有体积较小,开发起来难度较小的音频解码芯片?

    想通过手机音频口实现与MCU的实时通信,有没有体积较小,开发起来难度较小的音频解码芯片?
    发表于 10-25 07:44

    IB Verbs和NVIDIA DOCA GPUNetIO性能测试

    NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一个库,专门实时在线 GPU 数据包处理而设计。它结合了 GPUDirect RDMA 和 GPUD
    的头像 发表于 08-23 17:03 500次阅读
    IB Verbs和<b class='flag-5'>NVIDIA</b> DOCA GPUNetIO性能测试

    英伟达发布新版NVIDIAApp

    英伟达推出了 NVIDIA App 测试版 10.0.2 版本, NVIDIA App新版本新增功能包括显示设置、RTX 视频增强控制、应用排序,以及面向其他国家 / 地区用户的应用翻
    的头像 发表于 08-07 16:16 862次阅读

    可以使用esp8266处理实时视频音频流到服务器到移动设备?

    各位专家,您好: 我是 esp8266 的新手,我正在做一个项目,我需要使用 esp8266 使用服务器到移动设备处理实时视频音频流。可以使用 esp8266 处理实时
    发表于 07-19 08:40

    【新品】隔离型一转多路RS485中继器,高速传输,稳定通信必备

    随着电动汽车的普及,智能电网正在构建兼容的充电网络,实现能源的高效分配和管理。融合了传统电网与先进的通信技术的智能电网构建更加高效、环保和可靠的能源体系铺平道路。RS485中继器能够将现代先进
    的头像 发表于 07-19 08:21 296次阅读
    【新品】隔离型一转多路RS485中继器,高速传输,稳定<b class='flag-5'>通信</b>必备

    NVIDIA 通过 Holoscan NVIDIA IGX 提供企业软件支持

    美敦力、SETI 协会以及领先制造商正在构建 NVIDIA IGX 系统, AI 在工业边缘赋能。   NVIDIA 于6月2日宣布,集成NVIDIA Holoscan的
    的头像 发表于 06-04 10:21 462次阅读

    NVIDIA 通过 Holoscan NVIDIA IGX 提供企业软件支持,实现边缘实时医疗、工业和科学 AI 应用

    美敦力、SETI协会以及领先的制造商正在构建  NVIDIA IGX 系统,  AI 在工业边缘赋能     COMPUTEX — 2024 年 6 月 2 日 — NVIDIA 今日宣布,集成
    发表于 06-03 09:48 284次阅读
      <b class='flag-5'>NVIDIA</b> 通过 Holoscan <b class='flag-5'>为</b> <b class='flag-5'>NVIDIA</b> IGX 提供企业软件支持,实现边缘<b class='flag-5'>实时</b>医疗、工业和科学 AI 应用

    倍加福IO-Link系统解决方案,“工业数字互联”铺平道路

    早在2014年,倍加福就前瞻性地提出“Sensorik 4.0”概念,旨在推动制造工厂现场层在工业4.0革命种的发展。
    的头像 发表于 05-31 14:03 453次阅读

    华为面向中东中亚地区发布星河AI园区网络,以体验中心,企业数智升级首选

    华为数据通信创新峰会2024中东中亚站期间,在“高品质万兆园区网络,以体验中心,企业数智升级首选”专题分论坛上,华为发布星河AI园区网络解决方案,旨在为企业提供卓越的网络体验,助力中东中亚地区企业数智化转型,提升运营效率和业务灵活性,
    的头像 发表于 05-15 09:17 484次阅读

    【RTC程序设计:实时视频权威指南】音频采集与渲染

    在进行视频的采集与渲染的同时,我们还需要对音频进行实时的采集和渲染。对于rtc来说,音频实时性和流畅性更加重要。 声音是由于物体在空气中振
    发表于 04-28 21:00

    【RTC程序设计:实时视频权威指南】音频采集与预处理

    闲暇之余,继续学习【RTC程序设计:实时视频权威指南】这本书。 书中对于音频采集的介绍非常详细和全面,包括原理、方法、技术细节以及实践应用等方面的内容。 音频采集是
    发表于 04-25 10:41

    巍泰技术基于 TurMass™ 通信技术的道路交通安全雷达风险防控解决方案

    车辆检测雷达与 TurMass™ 无线通信技术结合,实现了对道路交通安全风险的有效防控。该方案包括道路安全哨兵系统和智能雾灯诱导系统,利用雷达实时探测车辆信息并通过无线
    的头像 发表于 03-15 14:35 585次阅读
    巍泰技术基于 TurMass™ <b class='flag-5'>通信</b>技术的<b class='flag-5'>道路</b>交通安全雷达风险防控解决方案

    智能交互革新:采用人机界面传感解决方案汽车的演进铺平道路

    对于汽车而言,这是一个重要的时代;科技创新的汇聚彻底改变了我们道路上车辆的面貌。在过去的15年里,一系列开创性的进步重塑了现代汽车,将它们推向了便利性、连接性和安全性的领域。
    的头像 发表于 03-12 11:36 1061次阅读

    Starlab与SpaceX联手,商业空间站将进驻低地球轨道

    SpaceX 商业业务高级副总裁 Tom Ochinero对此评论道:“Starlab 的单次发射方案若能得到验证,不仅会提升这项商业模式的可信度,还将为未来的发展铺平道路。”
    的头像 发表于 02-01 14:24 507次阅读

    通宇通讯全力布局5G技术与特殊领域产品

    此外,近来,通宇通讯已经在咸宁开设了全资子公司——“通宇卫星通讯(湖北)有限公司”,以此进一步深化其对卫星通信领域的投资,今后卫星通信产品的规模化生产和扩展铺平道路
    的头像 发表于 12-12 09:54 539次阅读