北大提出MotionBERT：人体运动表征学习的统一视角-电子发烧友网

导读

本文是对发表于计算机视觉领域顶级会议 ICCV 2023 的论文MotionBERT: A Unified Perspective on Learning Human Motion Representations的解读。该论文由北京大学王亦洲课题组与上海人工智能实验室合作完成。

这项工作提出了一个统一的视角，从大规模、多样化的数据中学习人体运动的通用表征，进而以一个统一的范式完成各种以人为中心的下游视频任务。实验表明提出的框架在三维人体姿态估计、动作识别、人体网格重建等多个下游任务上均能带来显著提升，并达到现有最佳的表现。

‍

图1. 以统一的范式完成各种以人为中心的视频任务

背景介绍

感知和理解人类活动一直是机器智能的核心追求。为此，研究者们定义了各种任务来从视频中估计人体运动的语义标签，例如骨骼关键点、行为类别、三维表面网格等。尽管现有的工作在这些任务上已经取得了显著的进步，但它们往往被建模为孤立的任务。理想情况下，我们可以构建一个统一的以人为中心的运动表征，其可以在所有相关的下游任务中共享。

构建这种表征的一个重要挑战是人体运动数据资源的异质性。运动捕捉（MoCap）系统提供了基于标记和传感器的高精度 3D 运动数据，但其内容通常被限制在简单的室内场景。动作识别数据集提供了动作语义的标注，但它们要么不包含人体姿态标签，要么只有日常活动的有限动作类别。具备外观和动作多样性的非受限人类视频可以从互联网大量获取，但获取精确的姿势标注需要额外的努力，且获取准确真实（GT）的三维人体姿态几乎是不可能的。因此，大多数现有的研究都致力于使用单一类型的人体运动数据解决某一特定任务，而无法受益于其他数据资源的特性。

在这项工作中，我们提供了一个新的视角来学习人体运动表征。关键的想法是，我们可以以统一的方式从多样化的数据来源中学习多功能的人体运动表征，并利用这种表征以统一的范式处理不同的下游任务。

方法概览

图2. 框架概览

我们提出了一个包括预训练和微调两个阶段的框架，如图2所示。在预训练阶段，我们从多样化的运动数据源中提取 2D 关键点序列，并添加随机掩码和噪声。随后，我们训练运动编码器从损坏的 2D 关键点中恢复 3D 运动。这个具有挑战性的代理任务本质上要求运动编码器（i）从时序运动中推断出潜在的 3D 人体结构；（ii）恢复错误和缺失的数据。通过这种方式，运动编码器隐式地学习到人体运动的常识，如关节拓扑，生理限制和时间动态。在实践中，我们提出双流空间-时间变换器（DSTf ormer）作为运动编码器来捕获骨骼关键点之间的长距离关系。我们假设，从大规模和多样化的数据资源中学习到的运动表征可以在不同的下游任务之间共享，并有利于它们的性能。因此，对于每个下游任务，我们仅需要微调预训练的运动表征以及一个简单的回归头网络（1-2层 MLP）。

在设计统一的预训练框架时，我们面临两个关键挑战：

如何构建合适的代理任务（pretext task）学习的运动表征。

如何使用大规模但异质的人体运动数据。

针对第一个挑战，我们遵循了语言和视觉建模的成功实践[1]来构建监督信号，即遮蔽输入的一部分，并使用编码的表征来重构整个输入。我们注意到这种“完形填空”任务在人体运动分析中自然存在，即从 2D 视觉观察中恢复丢失的深度信息，也就是 3D 人体姿态估计。受此启发，我们利用大规模的 3D 运动捕捉数据[2]，设计了一个 2D 至 3D 提升（2D-to-3D lifting）的代理任务。我们首先通过正交投影 3D 运动来提取 2D 骨架序列 x。然后，我们通过随机遮蔽和添加噪声来破坏 x，从而产生破坏的 2D 骨架序列，这也类似于 2D 检测结果，因为它包含遮挡、检测失败和错误。在此之后，我们使用运动编码器来获得运动表征并重建 3D 运动。

对于第二个挑战，我们注意到 2D 骨架可以作为一种通用的中介，因为它们可以从各种运动数据源中提取。因此，可以进一步将 RGB 视频纳入到 2D 到 3D 提升框架以进行统一训练。对于 RGB 视频，2D 骨架可以通过手动标注或 2D 姿态估计器给出。由于这一部分数据缺少三维姿态真值（GT），我们使用加权的二维重投影误差作为监督。

图3. DSTformer 网络结构

在运动编码器的具体实现上，我们根据以下原则设计了一个双流时空变换器（DSTformer）网络结构（如图3所示）：

两个流都有综合建模时空上下文信息的能力。

两个流侧重不同方面的时空特征。

将两个流融合在一起时根据输入的时空特征动态平衡融合权重。

实验结论

我们在三个下游任务上进行了定性和定量的评估，所提出的方法均取得了最佳表现。

图4. 效果展示

表1. 三维人体姿态估计的定量评估。数字代表 Human3.6M 上的平均关节误差 MPJPE（mm）。（上）使用检测到的 2D 姿态序列作为输入。（下）使用真值（GT）2D 姿态序列作为输入。

对于三维人体姿态估计任务，我们在 Human3.6M[3]上进行了定量测试。如表1所示，本文的两个模型都优于最先进的方法。所提出的预训练运动表征额外降低了误差，这证明了在广泛而多样的人体运动数据上进行预训练的好处。

表2. 基于骨架的动作识别准确度的定量评估。（左）NTU-RGB+D 上的跨角色（X-Sub）和跨视角（X-View）识别准确度。（右）NTU-RGB+D-120 上的单样本学习识别精度。所有结果都是第一选项准确度（%）。

对于基于骨架的动作识别任务，我们在 NTU-RGB+D[4]和 NTU-RGB+D-120[5]上进行了定量测试。在完全监督的场景下本文的方法与最先进的方法相当或更好，如表2（左）所示。值得注意的是，预训练阶段带来了很大的性能提升。此外，本文研究了可用于未见动作和稀缺标签的单样本学习设置。表2（右）说明所提出的模型大幅度优于此前最佳的模型。值得注意的是，预训练运动表征只需1-2轮微调即可达到最佳性能。

表3. 人体表面网格重建的定量评估。数字代表平均三维位置误差（mm）。

对于人体表面网格重建任务，我们在 Human3.6M[3] 和 3DPW[6]数据集上进行了定量测试。本文的模型超过了此前所有基于视频的方法。此外，所提出的预训练运动表征可以和 RGB 图像的方法相结合并进一步改善其表现。

图5. 在三个下游任务上随机初始化训练和微调预训练运动表征的学习曲线对比。

我们还比较了微调预训练运动表征和随机初始化训练模型的训练过程。如图5所示，使用预训练运动表征的模型在所有三个下游任务上都具有更好的性能和更快的收敛速度。这表明该模型在预训练期间学习了关于人体运动的可迁移知识，有助于多个下游任务的学习。

总结

在这项工作中，我们提出了：

一个统一的视角以解决各种以人为中心的视频任务。

一个预训练框架以从大规模和多样化的数据源中学习人体运动表征。

一个通用的人体运动编码器 DSTformer 以全面建模人体运动的时空特征。

在多个基准测试上的实验结果证明了学习到的运动表征的多功能性。未来的研究工作可以探索将学习到的运动表征作为一种以人为中心的语义特征与通用视频架构融合，并应用到更多视频任务（例如动作评价、动作分割等）。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3640

浏览量
134466
模型

模型

+关注

关注
1

文章
3238

浏览量
48824
数据源

数据源

+关注

关注
1

文章
63

浏览量
9676

原文标题：ICCV 2023 | 北大提出MotionBERT：人体运动表征学习的统一视角

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

多站低频雷达运动人体微多普勒特征提取与跟踪技术【论文干货】

多普勒分析方法在叶簇穿透环境下不能得到高质量的慢时间-多普勒谱（Slow Time-Doppler Spectrogram，STDS），也未考虑多个人体微多普勒特征的分离问题。因此本文提出了一种基于

发表于 12-20 15:49

人体上肢运动表面肌电特征研究

目的根据检测的人体上肢表面肌电信号，研究日常生活活动中男性、女性和左右上肢肌肉功能状态的差异性。方法对20 个被试者的三角肌中部、肱二头肌、肱三头肌、掌长肌和指伸

发表于 01-22 13:46 •18次下载

基于多区域的人体运动跟踪研究

针对单区域跟踪快速运动人体易产生漂移的缺点, 本文提出一种基于Kalman Filter 预测的多区域跟踪的新算法。该算法利用Kalman Filter 预测人体各区域, 然后利用颜色

发表于 05-25 15:11 •14次下载

基于多区域的<b class='flag-5'>人体</b><b class='flag-5'>运动</b>跟踪研究

CASIO登山运动表PRG-110T-使用说明书

CASIO登山运动表PRG-110T-说明书

发表于 03-24 17:40 •45次下载

监测人体健康和运动表现

高度微型化的传感器系列，如压电MEMS和光学传感器，使人体监测应用的快速发展，借助高精度模拟和处理芯片，以及最新的IEEE 802.15.6无线体域网的出现（禁止）标准

发表于 06-20 09:48 •23次下载

基于多区域的人体运动跟踪分析

　针对单区域跟踪快速运动人体易产生漂移的缺点，本文提出一种基于KalmanFilter预测的多区域跟踪的新算法。该算法利用KalmanFilter预测人体各区域，然后利用颜色直方图匹配

发表于 09-08 15:13 •4次下载

基于视角相容性的多视角数据缺失补全

的多视角数据出现视角缺失，这使得一些多视角学习方法无法有效进行，为此。本文提出了

发表于 12-18 10:46 •1次下载

基于块稀疏模型的人体运动模式识别方法

在人体运动模式识别中，传统稀疏表示分类算法未考虑待测试样本相应稀疏系数向量内在块结构相关性信息，影响了算法识别性能。为此，提出一种基于块稀疏模型的人

发表于 12-20 15:12 •0次下载

基于多视角自步学习的人体动作识别方法

自步学习的动作识别方法采用课程学习的思路，忽略了不同视角动作特征对课程的影响，对多分类的人体两维视频复杂动作识别无法取得满意效果。针对上述问题，提出

发表于 03-29 17:02 •0次下载

小米众筹上架一款智能跑鞋可强化运动表现

5月30日，今天小米众筹上架了一款自适应科技跑步鞋，号称可根据不同运动状态，发挥“自适应”特性，提供恰到好处的缓震回弹和支撑，强化运动表现。

发表于 05-31 15:17 •2520次阅读

小米有品推出一款C+86运动表

7月29日消息，小米有品推出一款C+86运动表，采用进口机芯金属，还有多功能计时表盘。

发表于 07-30 15:00 •1359次阅读

三星已认证新思科技PrimeLib统一库表征和验证解决方案

基于新思科技PrimeLib统一库表征和验证解决方案，双方共同客户可将汽车、AI、高性能计算和5G等应用的芯片设计时间缩短5倍。新思科技（Synopsys）近日宣布，三星晶圆厂（以下简称为“三星

发表于 11-09 16:59 •1713次阅读

通过Token实现多视角文档向量表征的构建

该篇论文与前两天分享的DCSR-面向开放域段落检索的句子感知的对比学习一文有异曲同工之妙，都是在检索排序不引入额外计算量的同时，通过插入特殊Token构建长文档的多语义向量表征，使得同一

发表于 07-08 11:13 •871次阅读

稠密向量检索的Query深度交互的文档多视角表征

今天给大家带来一篇北航和微软出品的稠密向量检索模型Dual-Cross-Encoder，结合Query生成和对比学习技术，将文档与生成的不同伪query进行深度交互学习构建文档的不同视角

发表于 08-18 15:37 •1804次阅读

一个基于参数更新的迁移学习的统一框架

它提出一个基于参数更新的迁移学习的统一框架，建立多种参数优化方法之间的联系，从而方便理解不同方法背后的关键设计，进而设计出只更新更少参数同时取得更好效果的参数优化方法。

发表于 09-26 10:29 •1304次阅读

搜索历史

北大提出MotionBERT：人体运动表征学习的统一视角

评论

多站低频雷达运动人体微多普勒特征提取与跟踪技术【论文干货】

人体上肢运动表面肌电特征研究

基于多区域的人体运动跟踪研究

CASIO登山运动表PRG-110T-使用说明书

监测人体健康和运动表现

基于多区域的人体运动跟踪分析

基于视角相容性的多视角数据缺失补全

基于块稀疏模型的人体运动模式识别方法

基于多视角自步学习的人体动作识别方法

小米众筹上架一款智能跑鞋可强化运动表现

小米有品推出一款C+86运动表

三星已认证新思科技PrimeLib统一库表征和验证解决方案

通过Token实现多视角文档向量表征的构建

稠密向量检索的Query深度交互的文档多视角表征

一个基于参数更新的迁移学习的统一框架