在 NeurIPS 这一关注机器学习、计算机视觉等领域的业界知名会议上,NVIDIA Research 带来了 60 多个项目,并展示了开创性成果
两篇 NVIDIA Research 的论文凭借对 AI 和机器学习领域的贡献而荣获 2022 年 NeurIPS 奖。其中一篇研究的是基于扩散的生成式 AI 模型,另一篇则是关于如何训练通用智能体。
本周在新奥尔良举行的 NeurIPS 大会和下周的 NeurIPS 在线会议中,60 多场讲座、学术海报会和研讨会均有 NVIDIA 的论文作者参加。
针对图像、文本或视频等模态的合成数据生成(SDG)是贯穿 NVIDIA 论文的一大关键主题。其他主题还包括强化学习、数据采集和增强、气候模型以及联邦学习。
NVIDIA 学习和感知研究副总裁 Jan Kautz 表示:“AI 是一项极其重要的技术。从生成式 AI 到自主智能体,NVIDIA 在各个领域都取得了飞快的进展。在生成式 AI 领域,我们不仅在推动自身对基础模型理论的理解,而且还在为更轻松地创建逼真的虚拟世界和模拟做出实际的贡献。”
重构基于扩散的生成式模型的设计
基于扩散的模型已成为生成式 AI 领域的一项开创性技术。NVIDIA 研究人员凭借对扩散模型设计的分析获得了优秀主流论文奖(Outstanding Main Track Paper)。他们所提出的改进措施能够显著提高这些模型的效率和质量。
该论文将扩散模型的各个组成部分分解成模块,帮助开发者明确可以调整的流程,进而提高整个模型的性能。研究人员表示,经过他们修改的模型在 AI 生成图像质量评估中获得了创纪录的高分。
在基于《我的世界》游戏的模拟套件
中训练通用智能体
虽然研究人员长期以来一直在《星际争霸》、《Dota》、《围棋》等视频游戏环境中训练自主智能体,但这些智能体一般只擅长少数任务。因此,NVIDIA 研究人员开始转向全球最热门的游戏《我的世界》,开发了一个用于训练通用智能体(一种能够成功执行各种开放式任务的智能体)的可扩展训练框架。
这个名为 MineDojo 的框架使智能体能够利用一个由 7000 多个维基百科网页、数百万个 Reddit 帖子和 30 万小时游戏录像所组成的大规模在线数据库来学习《我的世界》的灵活玩法(如下图所示)。该项目获得了 NeurIPS 委员会颁发的优秀数据集和基准论文奖。
作为概念验证,MineDojo 的研究人员创建了一个名为 MineCLIP 的大型基础模型。该模型学会了将 YouTube 上的《我的世界》游戏视频与视频字幕(包含玩家叙述屏幕上的动作)相关联。通过 MineCLIP,该团队训练出了一个能够在没有人类干预的情况下执行《我的世界》中若干任务的强化学习智能体。
创建构建虚拟世界的复杂 3D 几何体
本届 NeurIPS 上还展示了 GET3D。这个生成式 AI 模型可根据其所训练的建筑物、汽车、动物等 2D 图像类别,即时合成 3D 几何体。AI 生成的物体具有高保真的纹理和复杂的几何细节,并且以常用图形软件应用中所使用的三角网格格式创建,这使得用户可以十分轻松地将这些几何体导入 3D 渲染器和游戏引擎,以进行后续编辑。
GET3D 即 Generate Explicit Textured 3D 的缩写,正如其名,它具备生成具有显示纹理的3D 网格的能力。该模型是在 NVIDIA A100 Tensor Core GPU 上使用从不同相机角度拍摄的约 100 万张 3D 几何体的 2D 图像训练而成。该模型在单颗 NVIDIA GPU 上运行推理时,每秒可生成约 20 个物体。
AI 生成的物体可用于构建为游戏、机器人、建筑、社交媒体等行业设计的数字空间,比如建筑物、户外空间或整座城市的 3D 表达。
通过对材质和光照的控制,改进可逆渲染流程
在 6 月于新奥尔良举行的最近一次 CVPR 会议上,NVIDIA Research 发布了 3D MoMa。这种可逆渲染方法使开发者能够创建由 3D 网格模型、覆盖在模型上的材质以及光照这三个不同部分所组成的 3D 物体。
此后,该团队在分离 3D 物体中的材质和光照方面取得了重大进展,这反过来又提高了 AI 生成几何体的可编辑能力,创造者们能够轻松地对在场景中移动的物体替换材质或者调整光照。
这项研究工作依靠的着色模型采用 NVIDIA RTX GPU 加速光线追踪技术,更为逼真。该成果正在 NeurIPS 大会上以海报形式展示。
提高语言模型生成文本的事实准确性
另一篇被 NeurIPS 收录的论文研究的是预训练语言模型的一项重大难题——AI 生成文本的事实准确性。
由于 AI 只是通过关联单词来预测句子接下来的内容,因此为生成开放式文本而训练的语言模型往往会产生包含非事实信息的文本。在这篇论文中,NVIDIA 研究人员提出了能够突破这一局限性的技术,这也是为现实世界应用部署此类模型的必要前提。
研究人员建立了首个能够衡量生成开放式文本语言模型事实准确性的自动化基准,并发现拥有数十亿参数的大型语言模型比小型语言模型的事实准确性更高。该研究团队提出了一项新的技术——事实性强化训练,以及一种新颖的采样算法,通过两者的结合,助力训练语言模型生成准确的文本,并且将事实性错误率从 33% 降低到 15% 左右。
目前,NVIDIA 在全球共有 300 多名研究人员,团队专注的课题领域涵盖 AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人技术等。
原文标题:NVIDIA 凭借生成式 AI 和通用智能体方面的研究获得 NeurIPS 奖
文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
-
英伟达
+关注
关注
22文章
3747浏览量
90834
原文标题:NVIDIA 凭借生成式 AI 和通用智能体方面的研究获得 NeurIPS 奖
文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论