0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

佐思汽车研究 来源:佐思汽车研究 2025-01-14 11:04 122次阅读

CES 2025展会上,英伟达推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。

物理 AI 模型的开发成本很高并且需要大量真实数据和测试。Cosmos 世界基础模型(WFM)使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型。开发者还可以通过微调 Cosmos WFM 构建自定义模型。

为加速机器人自动驾驶汽车行业的工作,Cosmos 模型将以开放模型许可证的方式提供。开发者可以在 NVIDIA API 目录中预览首批模型,也可以从 NVIDIA NGC 目录或 Hugging Face下载整个系列的模型和微调框架。

Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。

Cosmos主要功能,生成虚拟世界状态:Cosmos能根据文本、图像或视频的提示生成高度仿真的虚拟世界状态,适用于自动驾驶和机器人应用。

生成式模型:平台基于生成式模型快速生成与真实世界场景相似的数据,帮助开发者训练和评估现有的AI模型。

高级标记器和数据处理:Cosmos集成了高级标记器和加速视频处理管道,生成的数据在后续的模型训练中发挥更大的作用。

安全与合规:平台还提供了安全防护机制,确保数据的安全与合规。

开放模型许可:Cosmos将以开放模型许可的形式在Hugging Face和NVIDIA NGC目录中提供,支持开发者进行定制化应用。

Cosmos的技术原理

生成式世界基础模型(WFM):Cosmos使用先进的生成式模型技术,模型包括扩散模型和自回归Transformer模型,能生成与真实世界高度一致的场景。

驾驶环境模拟:Cosmos能生成各种天气和路况条件下的合成数据,为自动驾驶系统的训练提供丰富的场景。

策略模型优化:通过生成大量逼真的驾驶场景,Cosmos可以帮助自动驾驶系统在模拟环境中进行强化学习,优化决策策略模型,测试在不同场景下的性能。

复杂环境适应性训练:Cosmos可以为机器人提供复杂环境的实时模拟,使其感知系统通过合成数据进行训练。

导航与任务执行:基于Cosmos生成的虚拟世界状态,机器人可以更好地理解和适应周围环境,实现更精准的导航和任务执行。

逼真场景生成:Cosmos能生成高度仿真的虚拟世界状态,适用于虚拟现实游戏和仿真训练。例如,开发者可以使用Omniverse创建三维场景,然后通过Cosmos将其转换为逼真的场景,使机器人在模拟环境中进行训练。

工业数字孪生:结合NVIDIA的Omniverse和Cosmos,可以创建工业数字孪生环境,用于工厂和仓库的模拟、测试和优化。这使得在复杂生产设施和配送中心网络中,能更好地进行手动设计、操作和优化。

Cosmos的应用案例

Uber自动驾驶开发:Uber作为首批采用Cosmos的公司之一,基于生成式AI能力,加速了安全、可扩展的自动驾驶解决方案的进程。为Uber的自动驾驶系统提供了丰富的合成数据,帮助其在不同驾驶场景下进行模型训练和优化,提升自动驾驶技术的安全性和可靠性。

小鹏汽车模拟训练:小鹏汽车也采用了Cosmos平台,通过生成各种天气和路况条件下的合成驾驶数据,对自动驾驶算法进行模拟训练。例如,在模拟雨、雪、雾、霾等恶劣天气下,以及城市道路、高速公路等不同路况的场景中,自动驾驶系统可以学习如何更好地感知环境、做出决策和执行操作,提高算法在真实街景中的表现。

1X机器人动态规划:1X公司用Cosmos的仿真引擎,为机器人提供了高保真的力学、运动学和动态交互建模能力。通过闭环模拟,1X机器人可以在虚拟环境中进行动态规划与环境适应性优化,在实际应用场景中实现更精准的导航和任务执行。

Waabi是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中数据整理的应用。

Wayve是一家致力于开发自动驾驶 AI 基础模型的公司。该公司正在评估使用 Cosmos 搜索用于提高安全性和验证的极端驾驶场景。

自动驾驶汽车工具链提供商Foretellix将使用 Cosmos 与 NVIDIA Omniverse Sensor RTX API大规模评估和生成高保真测试场景与训练数据。

我们来具体看一下Cosmos,英伟达搜集了2000万小时的视频,这些视频数据筛选或者说编审(curation)管线借助许多经过预训练的图像/视频理解模型,从中抽出1亿个2-60秒的片段,每个片段使用VLM视觉语言模型,每256帧提供一个视觉解说(caption),英伟达采用自回归即transformer和扩散diffusion两种模式来生成尽可能多的可用于训练的视频。英伟达使用一万张H100显卡,用时三个月,训练出了Cosmos,当然这个模型会一直升级,英伟达的运算资源自然是不成问题的。

英伟达打造了一种Ray-based orchestration的管线,用于端到端特别是强化学习训练中。

强化学习训练

422e7d62-d08e-11ef-9310-92fbcf53809c.png

图片来源:论文《Ray: A Distributed Framework for Emerging AI Applications》

Ray架构

4249faa6-d08e-11ef-9310-92fbcf53809c.png

图片来源:论文《Ray: A Distributed Framework for Emerging AI Applications》

Cosmos实例

42603d98-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

预训练的Cosmos WFM生成高质量的3D视频并且包含正确的物理世界分布与反应。使用连续和分离潜在表示(latent representation)来训练视频。

42972326-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

WFM是基石,再根据下游具体应用做出对应的定制数据集,再进行训练。

华为DriveGPT4

42a6d6ea-d08e-11ef-9310-92fbcf53809c.png

图片来源:华为DriveGPT4论文

这和自动驾驶领域将LLM微调一样,华为使用的是META开源的LLaMA 2,使用BDD-X和ChatGPT做指令微调。这些指令实际就是prompt,它包括动作命令、轨迹规划和具体指令。这些prompt需要从现实物理世界中搜集,并做一一对应。

Cosmos构成

42b48f24-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

Cosmos视频筛选步骤

42c69b24-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

42e04b82-d08e-11ef-9310-92fbcf53809c.png

上面是Cosmos视频类型构成,驾驶类占了11%,手动作和物体操纵占16%,人类动作和活动占10%,空间认知和导航占16%,第一人称视角占8%,自然动态占20%。由此看出,Cosmos主要还是面向机器人和具身智能的。

Cosmos的Tokenizer

430731e8-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

Cosmos的Tokenizer可以对应各种类型的输入。

Cosmos扩散WFM模型1.0版架构

4320e552-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

Cosmos扩散WFM模型1.0版架构,tokenizer分的很细,且是3D的,国内受限于计算资源,都尽量减少token数量,这会导致准确率下降。英伟达自然是丝毫不在意计算资源的。

Cosmos生成多个视角视频

43339260-d08e-11ef-9310-92fbcf53809c.png

Text-conditioned samples generated by Cosmos-1.0-Diffusion-7B-Text2World-SampleMultiView, extended to 8 seconds by Cosmos-1.0-Diffusion-7B-Video2World-Sample-MultiView.

图片来源:英伟达

多视角视频目前国内已知的只有华为的MagicDriveDiT。

434462e8-d08e-11ef-9310-92fbcf53809c.png

Trajectory-conditioned generated samples from Cosmos-1.0-Diffusion-7B-Text2World-SampleMultiView-TrajectoryCond.,给定轨迹,生成需要的视频,同样是多视角的,图片只显示了前摄像头视角。

图片来源:英伟达

436ebe44-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

轨迹误差即TFE的单位是厘米,与真实即groundtruth的误差小于7厘米。

4380b55e-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

视频生成质量指标主要是FID和FVD,FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集,分别通过Inception网络(通常是Inception V3模型)计算它们的特征表示。这一步骤会得到每个图像集的特征向量。计算每个集合的特征向量的均值和协方差矩阵,并做对比。FVD和FID接近,相当于把FID的图像特征提取网络换成视频特征提取网络,其他都差不多。

43919c70-d08e-11ef-9310-92fbcf53809c.png

注:这里的Ours指商汤的InfinityDrive

图片来源:商汤科技

商汤的要比英伟达优秀很多,但英伟达是3D且是多视角,能达到中上游水平已经是相当优秀了,英伟达在3D方面实力是最强的,没有之一。

Cosmos的数据保护

43aa5ae4-d08e-11ef-9310-92fbcf53809c.png

图片来源:英伟达

视频可能牵涉的隐私和安全问题,英伟达已经替你想过了,完全不用担心。

英伟达Cosmos的推出对于智能驾驶特别是端到端智能驾驶有了极大的帮助,厂家的数据成本下降至少95%,数据的质量还更好,对于那些靠搜集真实数据的纯数据集公司来说是灭顶之灾,对于极佳、商汤和华为之流世界模型厂家则提出了严峻的挑战。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    211

    文章

    28568

    浏览量

    207729
  • AI
    AI
    +关注

    关注

    87

    文章

    31305

    浏览量

    269658
  • 英伟达
    +关注

    关注

    22

    文章

    3822

    浏览量

    91514

原文标题:英伟达推出基石世界模型Cosmos,彻底解决智驾与机器人具身智能训练数据问题

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    英伟发布Cosmos世界基础模型

    自动驾驶汽车、机器人等物理AI系统的开发进程。 Cosmos平台的核心在于其强大的生成世界基础模型,这一模型能够模拟和预测现实
    的头像 发表于 01-09 10:23 240次阅读

    【「智能机器人系统」阅读体验】2.智能机器人的基础模块

    智能机器人的基础模块,这个是本书的第二部分内容,主要分为四个部分:机器人计算系统,自主机器人
    发表于 01-04 19:22

    智能机器人系统》第10-13章阅读心得之智能机器人计算挑战

    阅读《智能机器人系统》第10-13章,我对智能
    发表于 01-04 01:15

    【「智能机器人系统」阅读体验】+两本互为支持的书

    如何使用PyTorch进行数字图像处理,它借助摄像头来获取视频的图像信息,然后通过已有的图像识别框架模型经深度学习和优化以达到更精准的识别结果,从而为进一步的执行处理提供数据支持和依据。而《
    发表于 01-01 15:50

    【「智能机器人系统」阅读体验】2.智能机器人模型

    近年来,人工智能领域的大模型技术在多个方向上取得了突破性的进展,特别是在机器人控制领域展现出了巨大的潜力。在“
    发表于 12-29 23:04

    【「智能机器人系统」阅读体验】1.初步理解智能

    现状和前沿研究,详细介绍大模型的构建方法、训练数据模型架构和优化技术。 第4部分(第10章到第13章)深入探讨提升机器人计算实时性、算法安
    发表于 12-28 21:12

    【「智能机器人系统」阅读体验】1.全书概览与第一章学习

    讲解如何构造智能基础模型的方法和步骤,包括数据采集、预处理、模型
    发表于 12-27 14:50

    智能机器人系统》第7-9章阅读心得之智能机器人与大模型

    研读《智能机器人系统》第7-9章,我被书中对大模型机器人技术融合的深入分析所吸引。第7章详
    发表于 12-24 15:03

    【「智能机器人系统」阅读体验】+数据人工智能中的价值

    数据对于训练增强和优化机器人能力的深度学习模型至关重要。 从财务上讲,用户数据对互联网公司具有重要价值,估计每个用户 600 美元,考虑到
    发表于 12-24 00:33

    【「智能机器人系统」阅读体验】+初品的体验

    智能机器人系统》 一书由甘一鸣、俞波、万梓燊、刘少山老师共同编写,其封面如图1所示。 本书共由5部分组成,其结构和内容如图2所示。 该书可作为高校和科研机构的教材,为学生和研究人
    发表于 12-20 19:17

    智能机器人系统》第1-6章阅读心得之智能机器人系统背景知识与基础模块

    、谷歌的RT系列等前沿产品中展露锋芒。这些突破性成果标志着AI正从虚拟世界迈向物理世界的深度交互。 而研读《智能
    发表于 12-19 22:26

    名单公布!【书籍评测活动NO.51】智能机器人系统 | 了解AI的下一个浪潮!

    技术列为重点支持领域。 近期,中国机器人研发团队在多模态交互、语言模型运用,以及复杂任务规划等方面取得了突破。 我国智能
    发表于 11-11 10:20

    智能机器人技术中的发展

    智能(Embodied Intelligence)在机器人技术中的发展是人工智能领域的一个重要趋势。以下是对
    的头像 发表于 10-27 09:48 754次阅读

    英伟打造人形机器人训练平台,引领AI新纪元

    英伟近日宣布了一项重大举措,为全球机器人制造业与AI领域注入强劲动力。公司推出了专为人形机器人设计的
    的头像 发表于 08-05 11:45 769次阅读

    英伟推出全新AI聊天机器人

    近日,英伟(Nvidia)宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为
    的头像 发表于 02-19 11:09 958次阅读