MoDem解决了视觉强化学习领域的三个挑战-电子发烧友网

【导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战，无需解码器，效率最高提升250%，一起看看它有多牛。

12月27日，MetaAI 负责视觉和强化学习领域的A

截止27日晚间，这篇推文的阅读量已经达到73.9k。

他表示，仅给出5个演示，MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务，大大优于现有的最先进方法。

有多优秀呢？

他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。

Lecun也转发了这一研究，表示MoDem的模型架构类似于JEPA，可在表征空间做出预测且无需解码器。

链接小编就放在下面啦，有兴趣的小伙伴可以看看~

论文链接：https://arxiv.org/abs/2212.05698

Github链接：https://github.com/facebookresearch/modem

研究创新和模型架构

样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战，尤其是视觉运动控制。

基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进，从而实现高样本效率。

然而在实践中，基于模型的RL的样本高效学习受到探索挑战的瓶颈，这次研究恰恰解决了这些主要挑战。

首先，MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练，解决了视觉强化学习/控制领域的三个主要挑战：

大样本复杂性（Large sample complexity）

高维状态和动作空间探索（Exploration in high-dimensional state and action space）

同步视觉表征和行为学习（Simultaneous learning of visual representations and behaviors）

这次的模型架构类似于Yann LeCun的JEPA，并且无需解码器。

作者Aravind Rajeswaran表示，相比Dreamer需要像素级预测的解码器，架构繁重，无解码器架构可支持直接插入使用SSL预训练的视觉表示。

此外基于IL+RL，他们提出了一个三阶段算法：

BC预训练策略

使用包含演示和探索的种子数据集预训练世界模型，此阶段对于整体稳定性和效率很重要

通过在线互动微调世界模型

结果显示，生成的算法在21个硬视觉运动控制任务中取得了SOTA结果（State-Of-The-Art result），包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。

从数据上来看，MoDem在各项任务中的表现远远优于其他模型，结果比之前的SOTA方法提升了150%到250%。

红色线条为MoDem在各项任务中的表现

在此过程中，他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。

最后，使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋，表明视频中的视觉预训练可以支持世界模型。

但8月数据强劲的E2E与冻结的R3M竞争，我们可以通过预训练做得更好。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1143

浏览量
40774
Meta

Meta

+关注

关注
0

文章
271

浏览量
11398
强化学习

强化学习

+关注

关注
4

文章
267

浏览量
11263

原文标题：Meta推出MoDem世界模型：解决视觉领域三大挑战，LeCun转发

文章出处：【微信号：CVSCHOOL，微信公众号：OpenCV学堂】欢迎添加关注！文章转载请注明出处。

Kimi发布视觉思考模型k1，展现卓越基础科学能力

近日，Kimi公司正式发布了其最新的视觉思考模型——k1。这款模型基于先进的强化学习技术构建，原生支持端到端的图像理解和思维链技术，为用户提供了全新的

发表于 12-17 09:59 •282次阅读

如何在化学和材料科学领域开展有影响力的人工智能研究？（三）

第三部分编译后的内容：4.如何解决科学问题？在掌握了上述的工具和视角后，我们将提出一些建议，帮助您在化学领域选择具有影响力的研究课题，并介绍机器学习

发表于 12-03 01:02 •219次阅读

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

领域的研究与发展。令人瞩目的是，边塞科技的创始人吴翼已正式加入该实验室，并担任首席科学家一职。吴翼在其个人社交平台上对这一变动进行了回应。他表示，自己最近接受了蚂蚁集团的邀请，负责大模型强化学习领域的研究工

发表于 11-22 11:14 •607次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器

发表于 11-05 17:34 •316次阅读

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现

发表于 09-30 16:16 •430次阅读

基本理想电路元件的三个特征是什么

基本理想电路元件是构成电路的基本单元，它们具有三个基本特征：电压-电流关系、能量转换和电路参数。以下是对这三个特征的分析：电压-电流关系理想电路元件的电压-电流关系是其最基本的特征之一。这种关系

发表于 08-25 09:38 •1188次阅读

简述三极管的三个工作区域

三极管的三个区域，通常指的是其在不同工作条件下的状态区域，即截止区、放大区和饱和区。这三个区域定义了三极管在不同电压和电流条件下的行为特性，

发表于 07-29 10:50 •3693次阅读

可调变阻器三个引脚怎么区分

可调变阻器，也称为电位器或可变电阻器，是一种可以调节电阻值的电子元件。它广泛应用于各种电子设备中，如音频设备、电源管理、电机控制等。可调变阻器有三个引脚，分别是固定端、滑动端和可调端。这三个引脚

发表于 07-24 11:12 •1333次阅读

如何判断ebc三个电极电压

在电化学领域，电化学电池（Electrochemical Battery Cell，简称EBC）是一种将化学能转化为电能的装置。EBC由三个

发表于 07-18 15:41 •860次阅读

机器人视觉可以分为哪三个部分?

机器人视觉是机器人技术中的一个重要分支，它涉及到图像处理、计算机视觉、机器学习等多个领域。机器人视觉

发表于 07-04 11:17 •647次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机视觉，作为计算机科学的一个重要分支，

发表于 07-01 11:38 •830次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •371次阅读

微波测量的三个基本参量是什么

微波测量是电子工程领域中的一个重要分支，它涉及到对微波信号的频率、幅度、相位等参数的测量。在微波测量中，有三个基本参量：频率、幅度和相位。这三个参量是微波信号的基本特征，对于微波系统的

发表于 05-28 14:46 •1412次阅读

如何判断三极管的三个极性

三极管是电子电路中的基本元件之一，其性能的好坏直接影响到整个电路的性能。而判断三极管的三个极性（基极b、发射极e、集电极c）是电路分析和设计中不可或缺的一步。下面将详细介绍判断三极管

发表于 05-21 15:26 •6747次阅读

一个篱笆三个桩——记晶体三极管的发明

一个篱笆三个桩——记晶体三极管的发明

发表于 05-12 08:14 •766次阅读

搜索历史

MoDem解决了视觉强化学习领域的三个挑战

评论

Kimi发布视觉思考模型k1，展现卓越基础科学能力

如何在化学和材料科学领域开展有影响力的人工智能研究？（三）

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

如何使用 PyTorch 进行强化学习

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

基本理想电路元件的三个特征是什么

简述三极管的三个工作区域

可调变阻器三个引脚怎么区分

如何判断ebc三个电极电压

机器人视觉可以分为哪三个部分?

深度学习在计算机视觉领域的应用

通过强化学习策略进行特征选择

微波测量的三个基本参量是什么

如何判断三极管的三个极性

一个篱笆三个桩——记晶体三极管的发明