用语言建模世界：UC伯克利多模态世界模型利用语言预测未来-电子发烧友网

当前，人与智能体（比如机器人）的交互是非常直接的，你告诉它「拿一块蓝色的积木」，它就会帮你拿过来。但现实世界的很多信息并非那么直接，比如「扳手可以用来拧紧螺母」、「我们的牛奶喝完了」。这些信息不能直接拿来当成指令，但却蕴含着丰富的世界信息。智能体很难了解这些语言在世界上的含义。

图源：谷歌机器人团队论文「Interac tive Language: Talking to Robots in Real Time」。

UC 伯克利 Dynalang 研究的关键思想是，我们可以将语言看作是帮助我们更好地对世界进行预测的工具，比如「我们的牛奶喝完了」→打开冰箱时没有牛奶；「扳手可以用来拧紧螺母」→使用工具时螺母会旋转。Dynalang 在一个模型中结合了语言模型（LM）和世界模型（WM），使得这种范式变成多模态。研究者认为，将语言生成和行动统一在一个智能体架构中是未来研究的一个令人兴奋的方向。

论文概览 人工智能长期以来的目标是开发能够在物理世界中与人类自然交互的智能体。当前的具身智能体可以遵循简单的低层指令，比如「拿一块蓝色的积木」或者「经过电梯，然后向右转」。然而，要实现自由交流的互动智能体，就需要理解人们在「此时此地」之外使用语言的完整方式，包括：传递知识，比如「左上角的按钮是关掉电视的」；提供情境信息，如「我们的牛奶喝完了」；以及协同，比如跟别人说「我已经吸过客厅了」。我们在文本中阅读的很多内容或者从他人口中听到的信息都在传递有关世界的知识，无论是关于世界如何运行还是关于当前世界状态的知识。我们如何使智能体能够使用多样化的语言呢？一种训练基于语言的智能体解决任务的方法是强化学习（RL）。然而，目前的基于语言的 RL 方法主要是学习从特定任务指令生成行动，例如将目标描述「拿起蓝色的积木」作为输入，输出一系列运动控制。然而，当考虑到自然语言在现实世界中所服务的多样功能时，直接将语言映射到最优行动是一个具有挑战性的学习问题。以「我把碗放好了」为例：如果任务是清洗，智能体应该继续进行下一个清洗步骤；而如果是晚餐服务，智能体应该去取碗。当语言不涉及任务时，它只与智能体应该采取的最优行动弱相关。将语言映射到行动，尤其是仅使用任务奖励，对于学会使用多样化语言输入完成任务来说是一个弱学习信号。不同的是，UC 伯克利的研究者提出，智能体使用语言的一种统一方法是帮助它们预测未来。前面提到的语句「我把碗放好了」有助于智能体更好地预测未来的观察结果（即，如果它采取行动打开橱柜，它将在那里看到碗）。我们遇到的很多语言可以通过这种方式与视觉体验联系起来。先前的知识，比如「扳手可以用来拧紧螺母」，帮助智能体预测环境变化。诸如「包裹在外面」的陈述有助于智能体预测未来的观察结果。这个框架还将标准指令遵循归入预测范畴：指令帮助智能体预测自己将如何受到奖励。类似于下一个 token 预测允许语言模型形成关于世界知识的内部表示，研究者假设预测未来的表示为智能体理解语言以及它与世界的关系提供了丰富的学习信号。

基于此，他们提出了 Dynalang，一种从在线经验中学习语言和图像世界模型，并利用该模型学习如何行动的智能体。 Dynalang 将学习用语言对世界建模（带有预测目标的监督学习）与学习根据该模型采取行动（带有任务奖励的强化学习）分离开来。该世界模型接收视觉和文本输入作为观察模态，并将它们压缩到潜在空间。研究者通过在线收集的经验训练世界模型，使其能够预测未来的潜在表示，同时智能体在环境中执行任务。他们通过将世界模型的潜在表示作为输入，训练策略来采取最大化任务奖励的行动。由于世界建模与行动分离，Dynalang 可以在没有行动或任务奖励的单模态数据（仅文本或仅视频数据）上进行预训练。此外，他们的框架还可以统一语言生成：智能体的感知可以影响智能体的语言模型（即其对未来 token 的预测），使其能够通过在动作空间输出语言来描述环境。

论文链接：https://arxiv.org/pdf/2308.01399.pdf项目主页：https://dynalang.github.io/代码链接：https://github.com/jlin816/dynalang 研究者在具有不同类型语言上下文的多样化环境中对 Dynalang 进行了评估。在一个多任务家庭清洁环境中，Dynalang 学会利用关于未来观察、环境动态和修正的语言提示，更高效地完成任务。在 Messenger 基准测试中，Dynalang 可以阅读游戏手册来应对最具挑战性的游戏阶段，优于特定任务的架构。在视觉 - 语言导航中，研究者证明 Dynalang 可以学会在视觉和语言复杂的环境中遵循指令。

Dynalang 学会使用语言来预测未来的（文本 + 图像）观察结果和奖励，从而帮助解决任务。在这里，研究者展示了在 HomeGrid 环境中真实的模型预测结果。智能体在接收环境中的视频和语言观察的同时，探索了各种房间。根据过去的文本「瓶子在客厅」，在时间步 61-65，智能体预测将在客厅的最后一个角落看到瓶子。根据描述任务的文本「拿起瓶子」，智能体预测将因为拿起瓶子而获得奖励。智能体还可以预测未来的文本观察：在时间步 30，给定前半句「盘子在」，并观察到橱柜上的盘子，模型预测下一个最可能的 token 是「厨房」。

研究者考虑了一系列具有视觉输入和多样化语言的环境。HomeGrid 是一个具有指令和多样化提示的具有挑战性的视觉网格世界。Messenger 是一个具有符号输入的基准测试，包含数百个人工编写的游戏手册，需要进行多次推理。Habitat 是一个模拟逼真的 3D 家居环境，用于视觉 - 语言导航，在其中智能体必须在数百个场景中定位物体。LangRoom 是一个简单的视觉网格世界，具有部分可观察性，智能体需要同时生成动作和语言。 详解 Dynalang 工作原理 使用语言来理解世界很自然地符合世界建模范式。这项工作构建在 DreamerV3 的基础之上，DreamerV3 是一种基于模型的强化学习智能体。Dynalang 不断地从经验数据中学习，这些数据是智能体在环境中执行任务时收集到的。如下图（左）所示，在每个时间步，世界模型将文本和图像压缩成潜在表示。通过这个表示，模型被训练用于重建原始观察结果、预测奖励，并预测下一个时间步的表示。直观地说，世界模型根据它在文本中读到的内容，学习它应该期望在世界中看到什么。如下图（右）所示，Dynalang 通过在压缩的世界模型表示之上训练策略网络来选择行动。它通过来自世界模型的想象的模拟结果进行训练，并学会采取能够最大化预测奖励的行动。

与之前逐句或逐段消耗文本的多模态模型不同，研究者设计的 Dynalang 将视频和文本作为一个统一的序列来建模，一次处理一帧图像和一个文本 token。直观来说，这类似于人类在现实世界中接收输入的方式 —— 作为一个单一的多模态流，人需要时间来聆听语言。将所有内容建模为一个序列使得模型可以像语言模型一样在文本数据上进行预训练，并提高强化学习的性能。 HomeGrid 中的语言提示 研究者引入了 HomeGrid 来评估一个环境中的智能体。在这个环境中，智能体除了任务指令外还会收到语言提示。 HomeGrid 是一个具有指令和多样化提示的具有挑战性的视觉网格世界。HomeGrid 中的提示模拟了智能体可能从人类那里学到或从文本中获取的知识，提供了对解决任务有帮助但不是必需的信息：未来观察：描述了智能体未来可能观察到的情况，比如「盘子在厨房里」。

Correction：提供了基于智能体当前行为的交互式反馈，比如「转身」。

Dynamics：描述了环境的动态变化，比如「踩踏板打开垃圾桶」。

HomeGrid 环境将与代码一起发布，以鼓励大家进一步在这个方向上进行研究。尽管智能体没有明确地接受有关文本对应于什么观察结果的明确监督，但 Dynalang 通过未来预测目标学会了将各种类型的语言与环境相联系。Dynalang 的性能优于基于语言的 IMPALA 和 R2D2，这两种方法在使用不同类型的语言上遇到困难，通常在超出指令范围的语言任务上表现更差。

Messenger 中的游戏手册 研究者在 Messenger 游戏环境中进行评估，以测试智能体如何从更长、更复杂的文本中学习，这需要对文本和视觉观察进行多次推理。智能体必须对描述每个任务动态的文本手册进行推理，并将其与环境中实体的观察结果结合起来，以确定哪些实体应该接收消息，哪些应该避免。Dynalang 的表现优于 IMPALA、R2D2 以及使用专门架构对文本和观察进行推理的任务特定 EMMA 基线，特别是在最困难的第三阶段。

Habitat 中的指令遵循 研究者还展示了 Dynalang 能够处理逼真的视觉观察，并在 Habitat 中执行指令跟随。智能体必须遵循自然语言指令，在家庭逼真扫描中导航到目标位置。在 Dynalang 中，指令遵循可以统一在相同的预测框架中，将其视为未来奖励预测。

基于 LangRoom 的语言生成 就像语言可以影响智能体对将要看到的事物的预测一样，智能体观察到的内容也会影响它对将要听到的语言的期望（例如，关于它所看到的内容的真实陈述）。通过在 LangRoom 中将语言输出到动作空间，研究者展示了 Dynalang 可以生成与环境相关联的语言，从而进行具身问答。LangRoom 是一个简单的视觉网格世界，具有部分可观察性，智能体需要在其中产生运动动作和语言。

文本预训练 由于使用语言进行世界建模与基于世界模型的行动学习解耦，Dynalang 可以使用离线数据进行预训练，而无需行动或奖励标签。这种能力使得 Dynalang 能够从大规模的离线数据集中受益，全部都在单一的模型架构内实现。研究者使用仅包含文本数据的数据对 Dynalang 进行预训练，从零开始学习 token 嵌入。在通用文本数据（TinyStories，2M 个短故事）上预训练模型，提高了模型在 Messenger 上的下游强化学习任务表现，超过了使用预训练的 T5 嵌入的结果。

研究者表示，尽管他们的工作专注于用于在世界中行动的语言理解，但它也可以像一个仅文本语言模型一样从世界模型中生成文本。研究者在潜在空间中对预训练的 TinyStories 模型进行模拟的抽样，然后在每个时间步骤从表示中解码 token 观察。尽管生成的文本质量仍然低于当前语言模型的水平，但模型生成的文本令人惊讶地连贯。他们认为将语言生成和行动统一在一个智能体架构中是未来研究的一个令人兴奋的方向。

原文标题：用语言建模世界：UC伯克利多模态世界模型利用语言预测未来

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2909

文章
44580

浏览量
372923

原文标题：用语言建模世界：UC伯克利多模态世界模型利用语言预测未来

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

大语言模型开发语言是什么

在人工智能领域，大语言模型（Large Language Models, LLMs）背后，离不开高效的开发语言和工具的支持。下面，AI部落小编为您介绍大语言

发表于 12-04 11:44 •101次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言

发表于 12-03 15:18 •120次阅读

一文理解多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>——下

一文理解多模态大语言模型——上

/understanding-multimodal-llms 在过去几个月中， OpenVINO™ 架构师 Yury阅读了众多有关多模态大语言模型的论文和博客，在此基础上，推荐了一篇解读多模态

发表于 12-02 18:29 •314次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

的表达方式和生成能力。通过预测文本中缺失的部分或下一个词，模型逐渐掌握语言的规律和特征。常用的模型结构 Transformer架构：大语言

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

的机会！本人曾经也参与过语音识别产品的开发，包括在线和离线识别，但仅是应用语言模型实现端侧的应用开发，相当于调用模型的接口函数，实际对模型的设计、训练和运行机理并不了解，我想通过学习

发表于 07-21 13:35

【大语言模型：原理与工程实践】大语言模型的应用

能力，它缺乏真正的“思考”过程。对于任何输入，大语言模型都会产生输出，但这仅仅是基于计算和预测下一个Token出现的概率。模型并不清楚自己的优势或劣势，也无法主动进行反思和纠正错误。提

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的预训练

数据格式的转换、数据字段的匹配和整合等。通过数据级净化，可以进一步提高数据的质量和可用性，为后续的数据分析和建模提供更有价值的数据支持。在得到了大语言模型的数据之后，就是对其进行预训练。大圆

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

就无法修改，因此难以灵活应用于下游文本的挖掘中。词嵌入表示：将每个词映射为一个低维稠密的实值向量。不同的是，基于预训练的词嵌入表示先在语料库中利用某种语言模型进行预训练，然后将其应用到下游任务中，词

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

的复杂模式和长距离依赖关系。预训练策略: 预训练是LLMs训练过程的第一阶段，模型在大量的文本数据上学习语言的通用表示。常用的预训练任务包括遮蔽语言建模（Masked Langu

发表于 05-05 10:56

【大语言模型：原理与工程实践】揭开大语言模型的面纱

大语言模型（LLM）是人工智能领域的尖端技术，凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习，利用神经网络框架来理解和生成自然语

发表于 05-04 23:55

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

的未来发展方向进行了展望，包括跨领域、跨模态和自动提示生成能力方向，为读者提供了对未来技术发展的深刻见解。《大语言模型原理与工程实践》是一本

发表于 04-30 15:35

fpga通用语言是什么

FPGA（现场可编程门阵列）的通用语言主要是指用于描述FPGA内部逻辑结构和行为的硬件描述语言。目前，Verilog HDL和VHDL是两种最为广泛使用的FPGA编程语言。

发表于 03-15 14:36 •507次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据，为更丰富的交互和查询响应提供了可能性。

发表于 01-19 16:11 •686次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •409次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频

发表于 12-28 11:45 •520次阅读

搜索历史

用语言建模世界：UC伯克利多模态世界模型利用语言预测未来

评论

大语言模型开发语言是什么

一文理解多模态大语言模型——下

一文理解多模态大语言模型——上

【《大语言模型应用指南》阅读体验】+ 基础知识学习

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】核心技术综述

【大语言模型：原理与工程实践】揭开大语言模型的面纱

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

fpga通用语言是什么

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

机器人基于开源的多模态语言视觉大模型

自动驾驶和多模态大语言模型的发展历程