NeurIPS 2023 | 扩散模型解决多任务强化学习问题-电子发烧友网

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题，它们主要利用 diffusion model 来建模分布复杂的轨迹或提高策略的表达性。

但是，这些工作仍然局限于单一任务单一数据集，无法得到能同时解决多种任务的通用智能体。那么，diffusion model 能否解决多任务强化学习问题呢？我们最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning”，旨在解决这个问题并希望启发后续通用决策智能的研究：

论文题目：Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

论文链接：

https://arxiv.org/abs/2305.18459

背景

数据驱动的大模型在 CV 和 NLP 领域已经获得巨大成功，我们认为这背后源于模型的强表达性和数据集的多样性和广泛性。基于此，我们将最近出圈的生成式扩散模型（diffusion model）扩展到多任务强化学习领域（multi-task reinforcement learning），利用 large-scale 的离线多任务数据集训练得到通用智能体。目前解决多任务强化学习的工作大多基于 Transformer 架构，它们通常对模型的规模，数据集的质量都有很高的要求，这对于实际训练来说是代价高昂的。基于 TD-learning 的强化学习方法则常常面临 distribution-shift 的挑战，在多任务数据集下这个问题尤甚，而我们将序列决策过程建模成条件式生成问题（conditional generative process），通过最大化 likelihood 来学习，有效避免了 distribution shift 的问题。

方法

具体来说，我们发现 diffusion model 不仅能很好地输出 action 进行实时决策，同样能够建模完整的（s,a,r,s'）的 transition 来生成数据进行数据增强提升强化学习策略的性能，具体框架如图所示：

对于决策规划任务，我们将模型称为；对于数据生成（增强）任务，我们将模型称为。我们的扩散模型基于 DDPM 的训练方式，利用损失训练，它能够预测逆向过程每一步的噪声。对于，它的损失函数可以表示为：

其中

是轨迹的标准化累积回报，是 Demonstration Prompt，可以表示为：

*表示专家轨迹，即是从每个任务下的一条或几条专家轨迹采样得到的时间步长的一段包含状态和动作的轨迹。对做 classifi-free guidance，并在测试推理过程中生成未来步长的动作序列，在实验中我们选取第一个动作与环境交互。对于，它的损失函数可以表示为：

其中

值得注意的是这里我们需要扩散模型建模整个（s,a,r）的完整轨迹，并且由于目标是完成数据生成任务，需要尽可能多样化的数据，不需要模型 condition 在上，自然也不需要 classifier-free guidance。

模型结构

为了更好地建模多任务数据，并且统一多样化的输入数据，我们用 transformer 架构替换了传统的 U-Net 网络，网络结构图如下：

▲ 关于模型结构和更多细节，还请参考我们的论文

实验

我们首先在 Meta-World MT50 上开展实验并与 baselines 进行比较，我们在两种数据集上进行实验，分别是包含大量专家数据，从 SAC-single-agent 中的 replay buffer 中收集到的 Near-optimal data（100M）；以及从 Near-optimal data 中降采样得到基本不包含专家数据的 Sub-optimal data（50M）。实验结果如下：

可以看到我们的方法在同样大小的数据上不仅超越了大多数离线强化学习方法，并且也超过了两种多任务在线强化学习方法，其中 PaCo 是目前的 SOTA 方法。我们的方法通过 classifier-free guidance 得到最优行为，对数据集质量的依赖性不强，在 Sub-optimal data 上的表现相比其他 sequence modeling 的方法有很大提升。在我们的实验中也观察到 Behavior Cloning（BC）在 Near-optimal data 上和我们的方法相比具有 competitive performance，但 BC 严重依赖数据集质量，在 Sub-optimal data 上性能急剧下降。在数据增强方面，我们的方法也同样有效，明显提升了数据集的质量以增强策略性能，实验结果如下：

我们选取 45 个任务的 Near-optimal data 训练，从表中我们可以观察到在见过的任务上，我们的方法均取得了最好的性能。甚至给定一段 demonstration prompt，能泛化到没见过的任务上并取得较好的表现。我们选取四个任务对原数据和生成的数据做 T-SNE 可视化分析，发现我们生成的数据的分布基本匹配原数据分布，并且在不偏离的基础上扩展了分布，使数据覆盖更加全面。

同样也具有泛化性，更多实验分析可以参见论文。

总结

我们提出了一种基于扩散模型（diffusion model）的一种新的、通用性强的多任务强化学习解决方案，它不仅可以通过单个模型高效完成多任务决策，而且可以对原数据集进行增强，从而提升各种离线算法的性能。我们未来将把迁移到更加多样、更加通用的场景，旨在深入挖掘其出色的生成能力和数据建模能力，解决更加困难的任务。同时，我们会将迁移到真实控制场景，并尝试优化其推理速度以适应某些需要高频控制的任务。

原文标题：NeurIPS 2023 | 扩散模型解决多任务强化学习问题

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2915

文章
45215

浏览量
379918

原文标题：NeurIPS 2023 | 扩散模型解决多任务强化学习问题

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

详解RAD端到端强化学习后训练范式

受限于算力和数据，大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。

发表于 02-25 14:06 •145次阅读

了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

专业数据注入大量数学/科学文献与合成推理数据微调策略 多任务联合训练推理链强化学习（RLCF）+ 符号蒸馏推理效率均衡优化（适合常规任务）针对长逻辑链的并行加速技术 4. 典型应用场

发表于 02-14 02:08

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

Tuning）和Prompt-Tuning：通过在输入序列中添加特定提示来引导模型生成期望的输出，简单有效，适用于多种任务。P-Tuning v1和P-Tuning v2：基于多任务学习

发表于 01-14 16:51

基于移动自回归的时序扩散预测模型

回归取得了比传统基于噪声的扩散模型更好的生成效果，并且获得了人工智能顶级会议 NeurIPS 2024 的 best paper。然而在时间序列预测领域，当前主流的扩散方法还是传统的

发表于 01-03 14:05 •271次阅读

浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

随着扩散生成模型的发展，人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进行逐步去噪而得到高质量的采样。当前，许多应用都涉及扩

发表于 11-27 09:21 •308次阅读

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

近日，专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉，此次交易完成后，边塞科技将保持独立运营，而原投资人已全部退出。与此同时，蚂蚁集团近期宣布成立强化学习实验室，旨在推动大模型强化

发表于 11-22 11:14 •897次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器学习库，

发表于 11-05 17:34 •550次阅读

扩散模型的理论基础

扩散模型的迅速崛起是过去几年机器学习领域最大的发展之一。在这本简单易懂的指南中，学习你需要知道的关于扩散

发表于 10-28 09:30 •855次阅读

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •522次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

今天来学习大语言模型在自然语言理解方面的原理以及问答回复实现。主要是基于深度学习和自然语言处理技术。大语言模型涉及以下几个过程：数据收集：大语言

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自监督学习和强化学习。 1.3

发表于 07-25 14:33

通过强化学习策略进行特征选择

来源：DeepHubIMBA特征选择是构建机器学习模型过程中的决定性步骤。为模型和我们想要完成的任务选择好的特征，可以提高性能。如果我们处理的是高维数据集，那么选择特征就显得尤为重要。

发表于 06-05 08:27 •469次阅读

【大语言模型：原理与工程实践】核心技术综述

的具体需求，这通常需要较少量的标注数据。 多任务学习和迁移学习: LLMs利用在预训练中积累的知识，可以通过迁移学习在相关任务上快速适应

发表于 05-05 10:56

【大语言模型：原理与工程实践】揭开大语言模型的面纱

Transformer架构，利用自注意力机制对文本进行编码，通过预训练、有监督微调和强化学习等阶段，不断提升性能，展现出强大的语言理解和生成能力。大语言模型的涌现能力，是指随着模型规模的增长，展现出

发表于 05-04 23:55

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

个文本质量对比模型，用于对有监督微调模型对于同一个提示词给出的多个不同输出结果进行质量排序。这一阶段的难点在于如何限定奖励模型的应用范围及如何构建训练数据。 强化学习阶段，根据数十万

发表于 03-11 15:16

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

背景

方法

模型结构

实验

总结

评论

详解RAD端到端强化学习后训练范式

了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

基于移动自回归的时序扩散预测模型

浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

如何使用 PyTorch 进行强化学习

扩散模型的理论基础

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

【《大语言模型应用指南》阅读体验】+ 基础知识学习

【《大语言模型应用指南》阅读体验】+ 基础篇

通过强化学习策略进行特征选择

【大语言模型：原理与工程实践】核心技术综述

【大语言模型：原理与工程实践】揭开大语言模型的面纱

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践