无需权重更新、微调，Transformer在试错中自主改进！-电子发烧友网

DeepMind 表示，他们提出的算法蒸馏（AD）是首个通过对具有模仿损失的离线数据进行顺序建模以展示上下文强化学习的方法。同时基于观察结果开启了一种可能，即任何 RL 算法都可以通过模仿学习蒸馏成足够强大的序列模型如 transformer，并将这些模型转换为上下文 RL 算法。

目前，Transformers 已经成为序列建模的强大神经网络架构。预训练 transformer 的一个显著特性是它们有能力通过提示 conditioning 或上下文学习来适应下游任务。经过大型离线数据集上的预训练之后，大规模 transformers 已被证明可以高效地泛化到文本补全、语言理解和图像生成方面的下游任务。

最近的工作表明，transformers 还可以通过将离线强化学习（RL）视作顺序预测问题，进而从离线数据中学习策略。Chen et al. (2021)的工作表明，transformers 可以通过模仿学习从离线 RL 数据中学习单任务策略，随后的工作表明 transformers 可以在同领域和跨领域设置中提取多任务策略。这些工作都展示了提取通用多任务策略的范式，即首先收集大规模和多样化的环境交互数据集，然后通过顺序建模从数据中提取策略。这类通过模仿学习从离线 RL 数据中学习策略的方法被称为离线策略蒸馏（Offline Policy Distillation）或策略蒸馏（Policy Distillation, PD）。

PD 具有简单性和可扩展性，但它的一大缺点是生成的策略不会在与环境的额外交互中逐步改进。举例而言，谷歌的通才智能体 Multi-Game Decision Transformers 学习了一个可以玩很多 Atari 游戏的返回条件式（return-conditioned）策略，而 DeepMind 的通才智能体 Gato 通过上下文任务推理来学习一个解决多样化环境中任务的策略。遗憾的是，这两个智能体都不能通过试错来提升上下文中的策略。因此 PD 方法学习的是策略而不是强化学习算法。

在近日 DeepMind 的一篇论文中，研究者假设 PD 没能通过试错得到改进的原因是它训练用的数据无法显示学习进度。当前方法要么从不含学习的数据中学习策略（例如通过蒸馏固定专家策略），要么从包含学习的数据中学习策略（例如 RL 智能体的重放缓冲区），但后者的上下文大小（太小）无法捕获策略改进。

论文地址：https://arxiv.org/pdf/2210.14215.pdf

研究者的主要观察结果是，RL 算法训练中学习的顺序性在原则上可以将强化学习本身建模为一个因果序列预测问题。具体地，如果一个 transformer 的上下文足够长，包含了由学习更新带来的策略改进，那么它不仅应该可以表示一个固定策略，而且能够通过关注之前 episodes 的状态、动作和奖励来表示一个策略改进算子。这样开启了一种可能性，即任何 RL 算法都可以通过模仿学习蒸馏成足够强大的序列模型如 transformer，并将这些模型转换为上下文 RL 算法。

研究者提出了算法蒸馏（Algorithm Distillation, AD），这是一种通过优化 RL 算法学习历史中因果序列预测损失来学习上下文策略改进算子的方法。如下图 1 所示，AD 由两部分组成。首先通过保存 RL 算法在大量单独任务上的训练历史来生成大型多任务数据集，然后 transformer 模型通过将前面的学习历史用作其上下文来对动作进行因果建模。由于策略在源 RL 算法的训练过程中持续改进，因此 AD 不得不学习改进算子以便准确地建模训练历史中任何给定点的动作。至关重要的一点是，transformer 上下文必须足够大（即 ac ross-episodic）才能捕获训练数据的改进。

研究者表示，通过使用足够大上下文的因果 transformer 来模仿基于梯度的 RL 算法，AD 完全可以在上下文中强化新任务学习。研究者在很多需要探索的部分可观察环境中评估了 AD，包括来自 DMLab 的基于像素的 Watermaze，结果表明 AD 能够进行上下文探索、时序信度分配和泛化。此外，AD 学习到的算法比生成 transformer 训练源数据的算法更加高效。

最后值得关注的是，AD 是首个通过对具有模仿损失的离线数据进行顺序建模以展示上下文强化学习的方法。

方法

在生命周期内，强化学习智能体需要在执行复杂的动作方面表现良好。对智能体而言，不管它所处的环境、内部结构和执行情况如何，都可以被视为是在过去经验的基础上完成的。可用如下形式表示：

研究者同时将「长期历史条件， long history-conditioned」策略看作一种算法，得出：

其中∆(A)表示动作空间 A 上的概率分布空间。公式 (3) 表明，该算法可以在环境中展开，以生成观察、奖励和动作序列。为了简单起见，该研究将算法用 P 表示，将环境（即任务）用的学习历史都是由算法表示，这样对于任何给定任务生成的。可以得到

研究者用大写拉丁字母表示随机变量，例如 O、A、R 及其对应的小写形式 o，α，r。通过将算法视为长期历史条件策略，他们假设任何生成学习历史的算法都可以通过对动作执行行为克隆来转换成神经网络。接下来，该研究提出了一种方法，该方法提供了智能体在生命周期内学习具有行为克隆的序列模型，以将长期历史映射到动作分布。

实际执行

在实践中，该研究将算法蒸馏过程（ algorithm distillation ，AD）实现为一个两步过程。首先，通过在许多不同的任务上运行单独的基于梯度的 RL 算法来收集学习历史数据集。接下来，训练具有多情节上下文的序列模型来预测历史中的动作。具体算法如下所示：

实验

实验要求所使用的环境都支持许多任务，而这些任务不能从观察中轻易的进行推断，并且情节（episodes）足够短，可以有效地训练跨情节因果 transformers。这项工作的主要目的是调查相对于先前工作，AD 强化在多大程度上是在上下文中学习的。实验将 AD、 ED( Expert Distillation）、RL^2 等进行了比较。

评估 AD、ED、 RL^2 结果如图 3 所示。该研究发现 AD 和 RL^2 都可以在上下文中学习从训练分布中采样的任务，而 ED 则不能，尽管 ED 在分布内评估时确实比随机猜测做得更好。

围绕下图 4，研究者回答了一系列问题。AD 是否表现出上下文强化学习？结果表明 AD 上下文强化学习在所有环境中都能学习，相比之下，ED 在大多数情况下都无法在上下文中探索和学习。

AD 能从基于像素的观察中学习吗？结果表明 AD 通过上下文 RL 最大化了情景回归，而 ED 则不能学习。

AD 是否可以学习一种比生成源数据的算法更有效的 RL 算法？结果表明 AD 的数据效率明显高于源算法（A3C 和 DQN）。

是否可以通过演示来加速 AD？为了回答这个问题，该研究保留测试集数据中沿源算法历史的不同点采样策略，然后，使用此策略数据预先填充 AD 和 ED 的上下文，并在 Dark Room 的环境中运行这两种方法，将结果绘制在图 5 中。虽然 ED 保持了输入策略的性能，AD 在上下文中改进每个策略，直到它接近最优。重要的是，输入策略越优化，AD 改进它的速度就越快，直到达到最优。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4774

浏览量
100896
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24737
DeepMind

DeepMind

+关注

关注
0

文章
130

浏览量
10882

原文标题：DeepMind新作！无需权重更新、微调，Transformer在试错中自主改进！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

transformer专用ASIC芯片Sohu说明

2022年，我们打赌说transformer会统治世界。我们花了两年时间打造Sohu，这是世界上第一个用于transformer（ChatGPT中的“T”）的专用芯片。将transform

发表于 01-06 09:13 •115次阅读

Transformer模型的具体应用

如果想在 AI 领域引领一轮新浪潮，就需要使用到 Transformer。

发表于 11-20 09:28 •497次阅读

Transformer模型能够做什么

尽管名为 Transformer，但它们不是电视银幕上的变形金刚，也不是电线杆上垃圾桶大小的变压器。

发表于 11-20 09:27 •344次阅读

自动驾驶中一直说的BEV+Transformer到底是个啥？

在很多车企的自动驾驶介绍中，都会听到一个关键技术，那就是BEV+Transformer，那BEV+Transformer到底是个啥？为什么很多车企在

发表于 11-07 11:19 •448次阅读

在高速ADC中通过校准改进SFDR

电子发烧友网站提供《在高速ADC中通过校准改进SFDR.pdf》资料免费下载

发表于 08-30 10:59 •0次下载

示波器探头补偿微调旋钮的作用

示波器探头补偿微调旋钮是一种用于调整示波器探头性能的重要组件。一、示波器探头补偿微调旋钮的作用校准探头性能示波器探头补偿微调旋钮的主要作用是校准探头的性能。由于探头在生产过程中可

发表于 08-09 11:31 •722次阅读

Transformer能代替图神经网络吗

Transformer作为一种在处理序列数据方面表现出色的深度学习模型，自其提出以来，已经在自然语言处理（NLP）、时间序列分析等领域取得了显著的成果。然而，关于Transformer

发表于 07-12 14:07 •479次阅读

Transformer语言模型简介与实现过程

在自然语言处理（NLP）领域，Transformer模型以其卓越的性能和广泛的应用前景，成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出，并首次应用于

发表于 07-10 11:48 •1864次阅读

大模型为什么要微调？大模型微调的原理

难以达到最佳性能。为了提升模型在特定任务上的表现，微调（Fine-tuning）成为了一个关键步骤。本文将详细探讨大模型为什么要进行微调以及微调的原理，并附上相关的代码示例。

发表于 07-10 10:43 •4243次阅读

Transformer架构在自然语言处理中的应用

随着人工智能技术的飞速发展，自然语言处理（NLP）领域取得了显著的进步。其中，Transformer架构的提出，为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构的核心思想、组成部分以及在自然语言处理领域的

发表于 07-09 11:42 •852次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是模型智能的源泉。本文将从模型权重的定义、作用、优化、管理以及应用等多个方面，深入探讨深度学习

发表于 07-04 11:49 •1475次阅读

Transformer模型在语音识别和语音生成中的应用优势

自然语言处理、语音识别、语音生成等多个领域展现出强大的潜力和广泛的应用前景。本文将从Transformer模型的基本原理出发，深入探讨其在语音识别和语音生成中的应用优势，并展望其未来发展趋势。

发表于 07-03 18:24 •1189次阅读

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型，包括模型的结构、训

发表于 07-02 11:41 •1696次阅读

基于Transformer模型的压缩方法

基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用，特别是在自然语言处理（NLP）和计算机视觉（CV）领域。

发表于 02-22 16:27 •674次阅读

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的

发表于 02-20 09:55 •1.5w次阅读