谷歌提出一种结合卷积神经网络和LSTM的新架构-电子发烧友网

由视觉输入控制的机器人非常依赖于固定视角的摄像头，这意味着它们难以在活动的情况下精确完成任务。近日，谷歌研究人员提出了一种结合卷积神经网络和 LSTM 的新架构，可通过强化学习等方法在接收多个摄像头、不同视角图像输入的情况下控制机械臂准确完成任务。研究人员称，新方法可以扩展到任何类型的自动自校准任务上。

人们非常擅长在不将视点调整到某一固定或特殊位置的情况下操纵物体。这种能力（我们称之为「视觉动作整合」）在孩童时期通过在多种情形中操纵物体而习得，并由一种利用丰富的感官信号和视觉作为反馈的自适应纠错机制控制。然而，在机器人学中，基于视觉的控制器很难获得这种能力，目前来看，这种控制器都基于一种用来从固定安装的摄像头读取视觉输入数据的固定装置。在视点大幅变化的情况下快速获取视觉运动控制技能的能力将对自动机器人系统产生重大影响——例如，这种能力对于参与救援工作或在灾区作业的机器人来说尤其必要。

在 CVPR 2018 会议中，谷歌提交了一篇名为《Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control》的论文。在这篇论文中，谷歌研究了一种新的深度网络架构（包含两个全卷积网络和一个长短期记忆单元），该架构从过去的动作和观测结果中学习自我校准。其视觉适应网络（visually-adaptive network）利用由演示轨迹和强化学习目标组成的各种模拟数据，能够从各种视点控制机械臂到达视觉指示的各种目标，并且独立于摄像机校准。

用物理机械臂实现视觉指示目标的视点不变操作。新方法学习了一种单一策略，通过从截然不同的摄像机视点捕获的感官输入来到达不同的目标。第一行显示了视觉指示的目标。

挑战

从未知视点捕获的单一图像中探索可控自由度（DoF）如何影响视觉运动可能不够明确和具体。确定动作对图像-空间运动的影响并成功地执行预期任务需要一个对过去动作记忆的保持能力进行增强的鲁棒感知系统。要解决这个具有挑战性的问题，必须解决以下基本问题：

●如何提供适当的经验，让机器人在模拟终身学习模式的纯视觉观察的基础上学习自适应行为？

●如何设计一个将鲁棒感知和自适应控制整合起来并能快速迁移到未见环境中的模型？

为了解决以上问题，研究人员设计了一种新的操纵任务，给一个七自由度机械臂提供一个物体的图像，并命令它在一系列干扰物中拿到特定的目标物体，同时每一次尝试的视点会发生剧烈变化。采用这种做法，研究人员能够模拟复杂行为的学习以及向未知环境的迁移。

用物理机械臂和各种摄像机视点完成到达视觉指示目标的任务。

利用模拟来学习复杂行为

收集机器人经验数据费时费力。在过去的一篇博文中，谷歌展示了如何通过将数据收集和试验分配给多个机器人来扩展学习技能。尽管该方法加快了学习进度，但它仍然不适合扩展到复杂行为的学习中（如视觉自校准），后者需要将机器人置于一个包含各种视点的大型空间中。因此，研究人员选择在模拟环境中学习此类复杂行为，在模拟中可以收集无限的机器人试验数据，并轻松将摄像头移动到各个随机视点。除了在模拟中快速收集数据之外，该方法还可以突破需要在机器人周围安装多个摄像机的硬件限制。

谷歌研究人员在模拟环境中使用域随机化技术来学习可泛化的策略。

为了学习足以迁移到未知环境的视觉鲁棒特征，研究人员使用了 Sadeghi 与 Levine 在 2017 年提出的域随机化技术（即模拟随机化），它可令机器人完全在模拟环境中学习基于视觉的策略，并可以推广到现实世界。该技术在诸如室内导航、物体定位、拾取和放置等多种机器人任务上效果良好。此外，为了学习像自校准这样的复杂行为，研究人员利用模拟能力生成合成示例，并结合强化学习目标来学习鲁棒的机械臂控制器。

使用模拟的 7 自由度机械臂实现视觉指示目标的视点不变操作。新方法学习了一种单一策略，可以通过不同相机视角捕捉的感官输入实现不同的目标。

在控制中解构感知

为了更快地将知识迁移到未知环境中，谷歌研究人员设计了一个深度神经网络，将感知和控制相结合，并同时进行端到端训练，且在必要情况下允许二者分别进行训练。感知与控制之间的分离使迁移到未知环境的难度减小，也让模型更加灵活和高效，因为每个部分（即「感知」和「控制」）都可以单独适应仅有少量数据的新环境。另外，虽然神经网络中的控制部分完全由模拟数据进行训练，但感知部分经过物体边界框收集的少量静态图像补充了输入，无需让物理机器人收集完整的动作序列轨迹。在实践中，谷歌研究人员只用了来自 22 张图像的 76 个对象边界框来微调网络的感知部分。

真实世界的机器人和移动摄像头设置。第一行展示了场景布置，第二行显示了机器人接收到的视觉感官输入。

早期结果

谷歌研究人员在物理机器人和真实物体上测试了视觉适应版本的网络，这些物体的外形与模拟环境中使用的完全不同。在实验中，桌子上会出现一个或两个物体：「见过的物体」（如下图所示）用于视觉适应，实验中使用的是小型静态真实图像集。在视觉适应期间不会看到「未见过的物体」。在测试中，机械臂被引导从各个视点到达视觉指示目标物体。对于双对象实验，第二个对象用于让机械臂产生「混淆」。因为纯模拟网络具有良好的泛化能力（因为它是在域随机技术之上进行训练的），模型的网络架构非常灵活，因此虽然实验中仅收集了非常少量的真实静态视觉数据用于视觉适应，但控制器的表现仍然有了很大提升。

在视觉特征和少量真实图像进行适应之后，模型性能提高了 10% 以上。其中所有用到的真实物体都与模拟中看到的截然不同。

谷歌研究人员认为，学习在线视觉自适应是一个重要而具有挑战性的问题，这一方向的目标是学习到可在多样化和非结构化的现实世界中运行的机器人所需要的通用化策略。新方法可以扩展到任何类型的自动自我校准上。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28543

浏览量
207613
谷歌

谷歌

+关注

关注
27

文章
6174

浏览量
105658
神经网络

神经网络

+关注

关注
42

文章
4776

浏览量
100929

原文标题：资讯 | 谷歌提出Sim2Real：让机器人像人类一样观察世界

文章出处：【微信号：SRA2009，微信公众号：深圳市机器人协会】欢迎添加关注！文章转载请注明出处。

什么是卷积神经网络？完整的卷积神经网络（CNNS）解析

卷积神经网络（CNN）是一种特殊类型的神经网络，在图像上表现特别出色。卷积神经网络由Yan Le

发表于 08-10 11:49 •1.9w次阅读

使用PyTorch深度解析卷积神经网络

卷积神经网络（CNN）是一种特殊类型的神经网络，在图像上表现特别出色。卷积神经网络由Yan Le

发表于 09-21 10:12 •841次阅读

卷积神经网络如何使用

卷积神经网络(CNN)究竟是什么，鉴于神经网络在工程上经历了曲折的历史，您为什么还会在意它呢? 对于这些非常中肯的问题，我们似乎可以给出相对简明的答案。

发表于 07-17 07:21

什么是LSTM神经网络

简单理解LSTM神经网络

发表于 01-28 07:16

卷积神经网络一维卷积的处理过程

。本文就以一维卷积神经网络为例谈谈怎么来进一步优化卷积神经网络使用的memory。文章（

发表于 12-23 06:16

卷积神经网络模型发展及应用

十余年来快速发展的崭新领域，越来越受到研究者的关注。卷积神经网络（CNN）模型是深度学习模型中最重要的一种经典结构，其性能在近年来深度学习任务上逐步提高。由于可以自动学习样本数据的特征表示，卷

发表于 08-02 10:39

《 AI加速器架构设计与实现》+第一章卷积神经网络观后感

连接块是一种模块，通常用于深度卷积神经网络中，特别是在残差网络（Residual Network，ResNet）中广泛使用，也是我比较熟悉的。组卷积

发表于 09-11 20:34

一种卷积神经网络和极限学习机相结合的人脸识别方法_余丹

一种卷积神经网络和极限学习机相结合的人脸识别方法_余丹

发表于 01-08 11:20 •0次下载

结合小波变换的LSTM循环神经网络的税收预测

分析历史税收数据之间的隐藏关系，利用数学模型来预测未来的税收收入是税收预测的研究重点。在此，提出了一种结合小波变换的长短期记忆（LSTM循环神经网络

发表于 04-28 11:26 •10次下载

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法卷积

发表于 08-17 16:30 •1509次阅读

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

发表于 08-21 16:41 •3055次阅读

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

中最重要的神经网络之一。它是一种由多个卷积层和池化层（也可称为下采样层）组成的神经网络。CNN 的基本思想是以图像为输入，通过

发表于 08-21 16:49 •2509次阅读

卷积神经网络层级结构卷积神经网络的卷积层讲解

卷积神经网络层级结构卷积神经网络的卷积层讲解卷积神经网络

发表于 08-21 16:49 •8969次阅读

卷积神经网络的介绍什么是卷积神经网络算法

的深度学习算法。CNN模型最早被提出是为了处理图像，其模型结构中包含卷积层、池化层和全连接层等关键技术，经过多个卷积层和池化层的处理，CNN可以提取出图像中的特征信息，从而对图像进行分类。一

发表于 08-21 16:49 •1905次阅读

卷积神经网络的原理与实现

1.卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于图像识别、视频分析、自然语言处理等领域。卷积

发表于 07-02 16:47 •637次阅读

搜索历史

谷歌提出一种结合卷积神经网络和LSTM的新架构

评论

什么是卷积神经网络？完整的卷积神经网络（CNNS）解析

使用PyTorch深度解析卷积神经网络

卷积神经网络如何使用

什么是LSTM神经网络

卷积神经网络一维卷积的处理过程

卷积神经网络模型发展及应用

《 AI加速器架构设计与实现》+第一章卷积神经网络观后感

一种卷积神经网络和极限学习机相结合的人脸识别方法_余丹

结合小波变换的LSTM循环神经网络的税收预测

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

卷积神经网络层级结构卷积神经网络的卷积层讲解

卷积神经网络的介绍什么是卷积神经网络算法

卷积神经网络的原理与实现