Project Mellon 是一个轻量级的 Python 软件包,能够利用强大的语音 AI(NVIDIA Riva)和大型语言模型(LLMs)(NVIDIA NeMo 服务),简化沉浸式环境中的用户交互。NVIDIA 在 GTC 2023 上宣布,Project Mellon 现已支持开发者进行测试。基于此,开发者可开始探索如何创建由自然语言语音指令控制的、解放双手的扩展现实(XR)体验。
正如 J·R·R·托尔金(J.R.R.Tolkien)在《都林之门(Doors of Durin)》中的谜语—“请说,朋友,而后进入”所示,文字可以移山倒海。Project Mellon 背后蕴含着一个基本理念,即以更实用有效的方式来利用语音 AI 和 LLM 之力打开虚拟世界的大门,并在其中完成更多的事情。
在 XR 中,用户界面可能非常复杂且难以使用,会破坏虚拟、混合和增强现实的本质—即沉浸式体验的自然感。Project Mellon 可赋能多类应用程序(无论是 XR 还是平板生态)开发者,轻松地将自然语言理解作为以人为本且可解放双手的新型用户界面,添加至其开发的软件之中。
Project Mellon 平台包含以下组成部分:
-
Project Mellon SDK(软件开发套件)
-
NVIDIA Riva(ASR 、TTS 、NMT)
-
NeMo 服务(其他 LLM 也可获取支持)
Project Mellon 1.0 发布的主要功能包括:
-
轻量且易于集成的 Python 库
-
保持自然语言理解准确性的 LLM
-
无需特定指令进行训练的零样本语言模型
-
具有对话和视觉上下文的自然语言指令支持
-
支持询问有关指令和情境的问题,并提供自然语言回答
-
用于理解和执行指令的简单 Python API
-
基于 Web 的测试应用程序
-
可以在本地或远程托管 ASR、TTS、LLM 和神经网络机器翻译(NMT),以实现低延迟响应
ESI 集团解决方案和技术专家 Jan Wurster 在 GTC 主题演讲—“在虚拟现实中与 AI 协作:沉浸式数字助手(会议代码:[S51355])”中表示:“我们发现,通过集成对话式 AI 与 NVIDIA Project Mellon,可以降低使用 XR 展开协作的技术门槛,并为 IC.IDO Weave 用户提供更加人性化的体验。通过输入自然语音,我们的虚拟 AI 助手可以帮助团队完成复核任务、查询可用情况或发现相关问题,这些功能无需记住特定指令、仅需输入自然语言就可使用。”
(2023 年 4 月 10 日前登录 GTC 官网,即可观看演讲回放,了解其团队如何在动态、协作的 XR 环境中,在使用对话式 AI 的过程中受益)
Project Mellon 现已可供开发人员使用。观看 Project Mellon 相关演示,了解如何利用自然语音指令,驱动设计审查、更改实时配置、控制机器人以及操纵相机和场景元素。
了解如何启用 Project Mellon 进行开发
人工智能正在改变人类与工作及工具进行交互的方式。开发人员可以通过语音 AI 和 Project Mellon,简化并提升用户体验的人性化水平,且不再需要培训用户操作虚拟现实(VR)中的每一项功能。用户可以在虚拟现实应用程序中,用自己的语言来控制 XR 体验。
点击“阅读原文”,申请试用 Project Mellon。
扫描海报二维码,即可观看 NVIDIA 创始人兼首席执行官黄仁勋 GTC23 主题演讲重播!
原文标题:使用自然语言语音指令创建 XR 体验:Project Mellon 应用测试
文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
-
英伟达
+关注
关注
22文章
3747浏览量
90834
原文标题:使用自然语言语音指令创建 XR 体验:Project Mellon 应用测试
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论