UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术-电子发烧友网

UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术，让智能体从单一视频中学习人物动作，并生成近乎相同的结果。更重要的是，智能体还能将所学到的技能应用于不同环境中。以下是论智对其博文的编译。

不论是像洗手这样日常的动作，还是表演杂技，人类都可以通过观察学习一系列技能。随着网络上越来越多视频资源的出现，想找到自己感兴趣的视频比之前更容易了。在YouTube，每分钟都有300小时的视频上传成功。但是，对于机器来说，从如此大量的视觉数据中学习技能仍然困难。大多数动作模仿的学习方法都需要有简洁地表示，例如从动作捕捉获取的记录。但想得到动作捕捉的数据可能也非常麻烦，需要大量设备。另外，动作捕捉系统也仅限于遮挡较少的室内环境，所以有很多无法记录的动作技能。那么，如果智能体可以通过观看视频片段来学习技能，不是很好吗？

在这一项目中，我们提出了一种可以从视频中学习技能的框架，通过结合计算机视觉和强化学习中出现的先进技术，该框架能让智能体学会视频中出现的全部技能。例如给定一段单目视频，其中一个人在做侧手翻或后空翻，该系统的智能体就可以学习这些动作，并重现出一样的行为，无需人类对动作进行标注。

从视频中学习身体动作的技能最近得到很多人的关注，此前的技术大多依靠人们手动调整框架结构，对生成的行为有很多限制。所以，这些方法也仅在有限的几种情境下使用，生成的动作看起来也不太自然。最近，深度学习在视觉模拟领域表现出了良好的前景，例如能玩雅达利游戏,机器人任务

框架

我们提出的框架包含三个阶段：姿态估计、动作重建和动作模拟。在第一阶段，框架首先对输入的视频进行处理，在每一帧预测人物动作。第二步，动作重建阶段会将预测出的动作合并成参考动作，并对动作预测生成的人工痕迹做出修正。最后，参考动作被传递到动作模拟阶段，其中的模拟人物经过训练，可以用强化学习模仿动作。

动作估计

给定一段视频，我们用基于视觉的动作估计器预测每一帧演员的动作qt。该动作预测器是建立在人类网格复原这一工作之上的（akanazawa.github.io/hmr/），它用弱监督对抗的方法训练动作估计器，从单目图像中预测动作。虽然在训练该估计器的时候需要标注动作，不过一旦训练完成，估计器在应用到新图片上时就无需再次训练了。

用于估计人物动作的姿态估计器

动作重建

姿态估计给视频中的每一帧都做出了单独的动作预测，但两帧之间的预测可能会出现抖动伪影。另外，虽然近些年基于是觉得姿态估计器得到了很大进步，但有时它们也可能会出现较大失误。所以，这一步的动作重建就是减少出现的伪影，从而生成更逼真的参考动作，能让智能体更轻易地模拟。为了实现这一点，我们对参考动作进行了优化Q={q0,q1,…,qt}，以满足以下目标：

其中lp(Q^)是为了让参考动作和原始动作预测更接近，lsm(Q^)是为了让相邻的帧之间的动作更相近，从而生成更流畅的动作。另外，wp和wsm是不同损失的权重。

这一过程可以显著提高参考动作的质量，并且修正一些人工生成的痕迹。

动作模拟

有了参考动作{q^0,q^1,…,q^t}之后，我们就可以训练智能体模仿这些动作了。这一阶段用到的强化学习方法和之前我们为模拟动作捕捉数据而提出的方法相似，奖励函数仅仅是为了让智能体的动作和重建后的参考动作之间的差异最小化。

这一方法表现得很好，我们的智能体可以学习很多杂技动作，每个动作只需要一段视频就能学会。

结果

最终我们的智能体从YouTube上的视频中学习了20多种不同的技能。

尽管智能体的形态有时和视频中的人物不太一样，但这一框架仍然能逼真地重现很多动作。除此之外，研究人员还用模拟的Atlas机器人模仿视频动作。

使用模拟人物（智能体）的好处之一就是，在新环境下可以用模拟对象生成相应的动作。这里，我们训练智能体在不规则平面上采取不同动作，而它所对应的原始视频是在平地上运动的。

虽然和原始视频中的环境大不相同，学习算法仍然能生成相对可靠的策略来应对不同路面情况。

总的来说，我们的框架采用的都是视频模仿问题中常见的方法，关键是要将问题分解成更加易处理的组合部分，针对每个部分采取正确的方法，然后高效地把它们组合在一起。但是模拟视频中的动作仍然是非常有挑战性的工作，目前还有很多我们无法复现的视频片段：

这种江南style的舞步，智能体就难以模仿

但是看到目前我们实现的成果，还是很振奋人心。未来我们还有很多需要改进的地方，希望这项工作能作为基础，为智能体在未来处理大量视频数据的能力奠定了基础。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机视觉

计算机视觉

+关注

关注
8

文章
1701

浏览量
46182
智能体

智能体

+关注

关注
1

文章
178

浏览量
10658
深度学习

深度学习

+关注

关注
73

文章
5523

浏览量
121706

原文标题：仅需一段视频，伯克利研究者就让智能体学会了杂技

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

2017全国深度学习技术应用大会

Record)数据，医学影像数据，基因信息数据，等。其中，医学影像数据占现阶段医疗数据的绝大部分。如何将医疗大数据运用于临床实践?这是医学和计算机研究人员都很关心的问题，而智能影像与深度学习提供了一个很好

发表于 03-22 17:16

基于深度学习的异常检测的研究方法

异常检测的深度学习研究综述原文：arXiv:1901.03407摘要异常检测是一个重要的问题，在不同的研究领域和应用领域都得到了很好的研究。

发表于 07-12 07:10

基于深度学习的异常检测的研究方法

ABSTRACT1.基于深度学习的异常检测的研究方法进行结构化和全面的概述2.回顾这些方法在各个领域这个中的应用情况，并评估他们的有效性。3.根据基本假设和采用的方法将最先进的深度异常

发表于 07-12 06:36

讨论纹理分析在图像分类中的重要性及其在深度学习中使用纹理分析

的复杂性，最后一层捕获图像的复杂特征。这些特征提供了关于物体形状的信息，但不适合基于图像中的重复模式来识别纹理细节。为了以一种优雅的方式解决这个问题，研究人员提出了将纹理提取技术与CNN结合起来的概念。这样

发表于 10-26 16:57

研究人员们提出了一系列新的点云处理模块

为了探索这些问题的解决办法、来自伦敦大学学院的研究人员们提出了一系列新的点云处理模块，从效率、信息共享和点云卷积操作等方面进行了研究，得到了更宽、更深、更快效率更高的点云处理网络，让更

发表于 08-02 14:44 •3111次阅读

<b class='flag-5'>研究人员</b><b class='flag-5'>们</b>提出了一系列新的点云处理模块

谷歌发明自主学习机器人结合了深度学习和强化学习两种类型的技术

）的研究人员联合发表了一篇论文，详细介绍了他们构建的一个通过 AI 技术自学走路的机器人。该机器人结合了深度学习和强化学习两种不同类型的 A

发表于 03-17 15:15 •1523次阅读

研究人员推出了一种新的基于深度学习的策略

苏黎世联邦理工学院的研究人员最近推出了一种新的基于深度学习的策略，该策略可以在不需要大量真实数据的情况下在机器人中实现触觉传感。在arXiv上预先发表的一篇论文中概述了他们的方法，该方法需要完全在模拟数据上训练

发表于 03-26 15:47 •2673次阅读

研究人员开发了一种基于深度学习的智能算法

这项工作发表在《NPJ计算材料》上，是南卡罗来纳大学工程与计算机学院的研究人员与贵州大学（位于中国贵阳的研究型大学）的

发表于 09-10 11:45 •2312次阅读

（KAIST）研究人员提供了一种深度学习供电的单应变电子皮肤传感器

传感器应用韩国科学技术高等研究院（KAIST）研究人员提供了一种深度学习供电的单应变电子皮肤传感器，可以从远处捕获人体运动。韩国科学

发表于 09-22 14:28 •2057次阅读

研究人员开发出深度学习算法用于患者的诊断

医疗技术应当对所有人都有所帮助，为了应对这一挑战，改善糖尿病视网膜病变筛查，人们已经做出了很多努力。Google AI的研究人员们就利用机器学习

发表于 11-16 09:15 •1871次阅读

基于深度学习的二维人体姿态估计方法

基于深度学习的二维人体姿态估计方法通过构建特定的神经网络架构，将提取的特征信息根据相应的特征融合方法进行信息关联处理，最终获得人体姿态

发表于 03-22 15:51 •5次下载

基于深度学习的二维人体姿态估计算法

，更能充分地提取图像信息，获取更具有鲁棒性的特征，因此基于深度学习的方法已成为二维人体姿态估计算法研究的主流方向。然而，

发表于 04-27 16:16 •7次下载

研究人员提出将深度学习技术引入细胞成像和分析中

近日，研究人员提出，希望将深度学习技术引入细胞成像和分析中，可以将混乱的生物学问题转化为可解决的计算。该研究以「Small images，

发表于 05-06 11:27 •2328次阅读

AI深度相机-人体姿态估计应用

我们非常高兴地发布一个新的代码示例，展示虹科AI深度相机SDK的惊人功能。只需6行源代码，您就可以实时准确地估计和跟踪人体姿态！我们最新的代码示例使用AI机器学习

发表于 07-31 17:42 •1091次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深

发表于 04-23 17:18 •1443次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术

评论

2017全国深度学习技术应用大会

基于深度学习的异常检测的研究方法

基于深度学习的异常检测的研究方法

讨论纹理分析在图像分类中的重要性及其在深度学习中使用纹理分析

研究人员们提出了一系列新的点云处理模块

谷歌发明自主学习机器人结合了深度学习和强化学习两种类型的技术

研究人员推出了一种新的基于深度学习的策略

研究人员开发了一种基于深度学习的智能算法

（KAIST）研究人员提供了一种深度学习供电的单应变电子皮肤传感器

研究人员开发出深度学习算法用于患者的诊断

基于深度学习的二维人体姿态估计方法

基于深度学习的二维人体姿态估计算法

研究人员提出将深度学习技术引入细胞成像和分析中

AI深度相机-人体姿态估计应用

深度解析深度学习下的语义SLAM