谷歌提出元奖励学习，两大基准测试刷新最优结果-电子发烧友网

RL算法由于奖励不明确，智能体可能会收到“利用环境中的虚假模式”的正反馈，这就有可能导致奖励黑客攻击。谷歌提出了使用开发元奖励学习（MeRL）来解决未指定奖励的问题，通过优化辅助奖励函数向智能体提供更精确的反馈。

强化学习（RL）为优化面向目标的行为,提供了统一且灵活的框架。

并且在解决诸如：玩视频游戏、连续控制和机器人学习等具有挑战性的任务方面，取得了显着成功。

RL算法在这些应用领域的成功，往往取决于高质量和密集奖励反馈的可用性。

然而，将RL算法的适用性，扩展到具有稀疏和未指定奖励的环境，是一个持续的挑战。

需要学习智能体从有限的反馈中，概括例如如何学习正确行为的问题。

在这种问题设置中研究RL算法性能的一种自然方法，是通过自然语言理解任务。

为智能体提供自然语言输入，并且需要生成复杂的响应，以实现输入过程中指定的目标，同时仅接收“成功-失败”的反馈。

例如一个“盲”智能体，任务是通过遵循一系列自然语言命令（例如，“右，上，上，右”）到达迷宫中的目标位置。

给定输入文本，智能体（绿色圆圈）需要解释命令，并基于这种解释采取动作以生成动作序列（a）。

如果智能体人达到目标（红色星级），则获得1的奖励，否则返回0。

由于智能体无法访问任何可视信息，因此智能体解决此任务，并概括为新指令的唯一方法，是正确解释指令。

在这些任务中，RL智能体需要学习从稀疏（只有少数轨迹导致非零奖励）和未指定（无目的和意外成功之间的区别）奖励。

重要的是，由于奖励不明确，智能体可能会收到“利用环境中的虚假模式”的正反馈，这就有可能导致奖励黑客攻击，在实际系统中部署时会导致意外和有害的行为。

在“学习从稀疏和未指定的奖励中进行概括”中，使用开发元奖励学习（MeRL）来解决未指定奖励的问题，通过优化辅助奖励函数向智能体提供更精确的反馈。

《Learning to Generalize from Sparse and Underspecified Rewards》论文地址：

https://arxiv.org/abs/1902.07198

MeRL与使用“新探索策略收集到成功轨迹”的记忆缓冲区相结合，从而通过稀疏奖励学习。

这个方法的有效性在语义分析中得到证明，其目标是学习从自然语言到逻辑形式的映射（例如，将问题映射到SQL程序）。

本文研究了弱监督问题设置，其目标是从问答配对中自动发现逻辑程序，而不需要任何形式的程序监督。

例如下图中找出“哪个国家赢得最多银牌？”，智能体需要生成类似SQL的程序，以产生正确的答案（即“尼日利亚”）。

所提出的方法在WikiTableQuestions和WikiSQL基准测试中实现了最先进的结果，分别将先前的工作提升了1.2％和2.4％。

MeRL自动学习辅助奖励函数，而无需使用任何专家演示（例如，ground-truth计划），使其更广泛适用并且与先前的奖励学习方法不同。

高级概述：

元奖励学习（MeRL）

MeRL在处理不明确奖励方面发现，虚假轨迹和实现意外成功的程序，对智能体的泛化性能不利。

例如，智能体可能解决上述迷宫问题的特定实例。但是，如果它在训练期间学会执行虚假动作，提供看不见的指令则可能导致其失败。

为了缓解这个问题，MeRL优化了更精确的辅助奖励函数，可以根据行动轨迹的特征区分意外、或非意外的成功。

通过元学习最大化训练的智能体在保持验证集上的表现，来优化辅助奖励。

从稀疏奖励中学习

要从稀疏的奖励中学习，有效的探索如何找到一组成功轨迹，至关重要。

论文通过利用Kullback-Leibler（KL）发散的两个方向来解决这一挑战，这是一种衡量两种不容概率分布的方法。

在下面的示例中，使用KL散度来最小化固定双峰（阴影紫色）和学习高斯（阴影绿色）分布之间的差异，这可以分别代表智能体的最优策略分布，和学习的策略的分布。

KL对象的一个学习方向，试图覆盖两种模式的分布，而其他目标学习的分布，则在寻求特定模式（即，它更喜欢A模式而不是B模式）。

我们的方法利用模式覆盖了KL关注多个峰值以收集多样化的成功轨迹和模式的倾向，寻求KL在轨迹之间的隐含偏好，以学习强有力的策略。

结论

设计区分最佳和次优行为的奖励函数对于将RL应用于实际应用程序至关重要。

这项研究在没有任何人为监督的情况下向奖励函数建模方向迈出了一小步。

在未来的工作中，我们希望从自动学习密集奖励函数的角度解决RL中的信用分配问题。

致谢

这项研究是与Chen Liang和Dale Schuurmans合作完成的。我们感谢Chelsea Finn和Kelvin Guu对该论文的评论。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6171

浏览量
105508
智能体

智能体

+关注

关注
1

文章
152

浏览量
10593
强化学习

强化学习

+关注

关注
4

文章
267

浏览量
11266

原文标题：谷歌提出元奖励学习，两大基准测试刷新最优结果

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

影响OTDR测试结果的因素

光时域反射仪（OTDR）是光纤通信领域中不可或缺的测试工具。它通过发送光脉冲并测量反射回来的光信号，来确定光纤链路的长度、损耗和故障位置。然而，OTDR测试结果的准确性受到多种因素的影响。 1.

发表于 12-31 09:22 •169次阅读

MLCommons推出AI基准测试0.5版

开放式机器学习工程联盟 MLCommons 在美国加州当地时间公布推出适用于消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版，这是该测试的第一个公开版

发表于 12-12 16:47 •333次阅读

谷歌正式发布Gemini 2.0 性能提升近两倍

2.0在关键基准测试中相比前代产品Gemini 1.5 Pro的性能提升了近两倍。该模型支持图像、视频和音频等多种输入与输出形式，例如可以实现文本与图像的混合生成以及自定义的多语言文本转语音（TTS）内容。此外，Gemini

发表于 12-12 14:22 •313次阅读

ESD HBM测试差异较大的结果分析

ESD HBM测试结果差异较大的原因，通常包括设备/仪器差异、‌校准和维护水平不同、‌环境条件差异、‌测试样本差异、‌测试操作员技能和经验差异以及测

发表于 11-18 15:17 •476次阅读

DaVinci系统级基准测试测量

电子发烧友网站提供《DaVinci系统级基准测试测量.pdf》资料免费下载

发表于 10-16 11:32 •0次下载

浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第一

众，在3D-UNet和CosmoFlow两个模型共计八项测试中，斩获五项冠军。 MLPerf™ Storage v1.0 AI存储基准测试成绩 MLPerf™ 是影响力最广的国际AI性

发表于 09-28 16:46 •221次阅读

华为云图引擎服务GES震撼业界,刷新基准测试世界纪录

9月26日，国际知名的关联数据基准委员会（LDBC）最新公布的社交网络测试交互式负载（SNB）成绩单上，华为云的图引擎服务（GES）大放异彩，圆满通过了所有基于声明式查询语言的基准测试

发表于 09-27 14:28 •497次阅读

普强成功荣登两大榜单

普强凭借其深厚的技术积累和创新能力，不断推出高性能、高质量的产品和解决方案，成功荣登两大榜单，这是对普强卓越的技术实力和应用层面的肯定。

发表于 09-13 10:34 •1121次阅读

Sitara™ AM62Ax基准测试

电子发烧友网站提供《Sitara™ AM62Ax基准测试.pdf》资料免费下载

发表于 09-07 10:41 •0次下载

中文大模型测评基准SuperCLUE：商汤日日新5.0，刷新国内最好成绩

日前，中文大模型测评基准SuperCLUE发布最新榜单，对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评，结果显示在SuperCLUE综合基准上，日日新 5.0表现

发表于 05-21 14:45 •763次阅读

谷歌提出大规模ICL方法

谷歌DeepMind团队近日取得了一项突破性的研究成果。他们提出了强化和无监督两种新型的ICL（In-Context Learning）学习方法，这一创新技术能够在多个领域显著提升模型

发表于 05-14 14:17 •368次阅读

用STM32L4R9驱动480*800的LCD屏幕，结果屏幕刷新看起来是逐行进行，刷新速度较慢，是否正常？

请问一下，用STM32L4R9驱动480*800的LCD屏幕（采用一个数据通道），结果屏幕刷新看起来是逐行进行，刷新速度较慢，是否正常，如果有问题可能会是哪里？例程和资料都可以看出整屏同时刷新

发表于 03-22 07:04

通用CPU性能基准测试的研究现状

经过持续迭代升级，TPC已发展成为能够满足多种应用场景性能测试需求的基准测试簇，根据测试场景和测试事务的不同，可将 TPC性能

发表于 02-20 10:22 •721次阅读

谷歌自研手机SoC测试订单交由京元电

近日，谷歌在半导体委外策略上迎来了一次重大转变，其自研手机系统单芯片（SoC）“Tensor”首次释出测试订单给台湾的京元电。这一举动打破了以往与三星合作的统包晶圆代工与封测的模式。

发表于 01-18 15:28 •656次阅读

如何从零开始构建深度学习项目？（如何启动一个深度学习项目）

性能重大提升的背后往往是模型设计的改变。不过有些时候对模型进行微调也可以提升机器学习的性能。最终的判断可能会取决于你对相应任务的基准测试结果。

发表于 01-11 10:49 •309次阅读

搜索历史

谷歌提出元奖励学习，两大基准测试刷新最优结果

评论