搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

清华&西电提出HumanMAC：人体动作预测新范式

我们一篇关于人体动作预测的研究工作被计算机视觉国际顶级会议ICCV 2023录用，代码[1]开源，demo讲解[2]、项目主页[3]、中文文档[4]开放。

HumanMAC: Masked Motion Completion for Human Motion Prediction 主页：https://lhchen.top/Human-MAC 论文：https://arxiv.org/abs/2302.03665 代码：https://github.com/LinghaoChan/HumanMAC

人体动作预测是计算机视觉和图形学中的一个经典问题，旨在提升预测结果的多样性、准确性，并在自动驾驶、动画制作等多领域有非常多具体的应用。本研究梳理了今年来大家对于该问题的建模方式，认为以往的大多数工作对于动作预测任务都是使用一种encoding-decoding的范式。这类范式大多是将观测帧编码进隐空间，然后从隐空间解码出预测帧。我们认为这种方式存在三个缺点：

大多数SOTA的方法需要多个loss作为目标约束，需要精细化地调节多个loss之间的权重，需要极其繁重的调参工程。

大多数SOTA的方法需要多阶段训练，特别是需要预训练encoder和decoder，这使得预测结果非常依赖于预训练的质量。

对于这些方法来说，很难实现不同类别运动的切换，例如从“WalkDog”到“Sitting”的切换，这对于结果多样性至关重要。出现这个现象的原因是这些方法所使用的训练数据包括很少这样的切换。

为克服上述问题，我们提出了一种建模动作预测问题的全新范式：掩码动作补全。如图1(b)所示，我们认为预测问题就是一种特殊的补全问题，可以借助diffusion model的补全能力解决上述挑战。如果使用这种范式，我们是需要一个loss、训练一个阶段就可以实现预测，可以说是“大道至简”。并且由于我们建模了全局的动作，模型很容易学习到平滑性，就能自动实现动作的切换。

encoding-decoding方式与掩码运动补全的比较。(a)encoding-decoding的方法将观测帧显式地编码到隐空间，然后将隐空间变量解码为预测结果。(b)HumanMAC在训练阶段由噪声生成运动。在推理阶段完成补全动作的任务。

为了解决动作抖动等问题，我们借鉴了以往工作在频域建模的思路[5][6]，通过DCT变换，对数据在频域进行训练。也就是说，我们的diffusion model是动作频谱的生成模型，在输出结果的时候只需要做iDCT变换即可复原动作。为此，我们设计了一个补全算法：DCT-Completion。算法流程和示意图如下。

由于动作预测的问题只是一个特殊的掩码补全问题，我们可以灵活地使用mask实现各种“花式”可控动作补全：

动作切换

动作切换

特定躯体可控动作编辑

特定躯体可控动作编辑

在量化指标上我们仅仅通过一个loss、一阶段训练就可以和以往的工作不相上下了（我们还比较了最新的arxiv算法）。多样性的指标逊色于baseline方法的原因，主要来自于baseline方法生成的“多样”结果存在大量的failure cases，详情可以见论文和demo中的可视化结果比较。

主实验结果

在正文中，我们对网络结构、DCT设计、频谱频段选择、网络结构、采样步数、噪声建模等进行了精细的消融验证。同时，由于以往研究的codebase计算效率太低，我们重新优化了评估代码并开源（加速上千倍），为后续研究者提供便利。

为了探究模型的泛化性能，我们还做了在H3.6M数据训练，在AMASS上做zero-shot预测实验的研究，效果也特别好。

AMASS上的zero-shot预测实验

这是我们基于对动作生成任务全新理解，在动作预测问题上的一个探索性工作。我们的大量实验表明这种框架的扩展性非常好，还有很大的扩展空间，欢迎大家关注我们的后续工作。

该研究是我和原来本科的同学多次交流获得的灵感，在此也感谢一下母校。衷心感谢所有合作者，特别是Xiaobo全方位的指导，让我获益匪浅(^_^)。P.S.: 该工作做完刚刚挂出arxiv的时候就有很多工业界的同行发邮件来交流，甚至希望部署到他们的产品线中，给予了我们极大的鼓舞，在此也向他们表示感谢。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3226

浏览量
48806
DCT

DCT

+关注

关注
1

文章
56

浏览量
19869
计算机视觉

计算机视觉

+关注

关注
8

文章
1698

浏览量
45972

原文标题：ICCV 2023 | 清华&西电提出HumanMAC：人体动作预测新范式

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

范式间区别

第二范式（2NF），其余范式以次类推。一般说来，数据库只需满足第三范式（3NF）就行了。下面我们举例介绍第一范式（1NF）、第二范式（2NF

发表于 10-22 11:40

电调原理图和amp和PCB图

电调原理图和amp和PCB图，PDF格式资料，比较清晰。

发表于 09-26 16:31 •76次下载

synopsys&Mentor设计流程

synopsys &amp;amp; Mentor 设计流程免费下载。

发表于 07-08 11:37 •72次下载

R&amp;amp;S FSL6台式信号分析仪的功能特点及应用范围

R&amp;amp;S®FSL 是一款多功能而且经济实用的信号分析仪。R&amp;amp;S®FSL全系列标配28MHz的信号解调带宽，远高于其他同类产品。无论是频谱、噪声系数、ACL

发表于 12-09 09:46 •1277次阅读

欧拉 Summit 2021 安全&amp;可靠性&amp;运维专场：主流备份技术探讨

在openEuler Summit 2021 安全&amp;可靠性&amp;运维专场上，高冲对为数据安全而生，统信软件备份还原工具分享。

的头像

发表于 11-10 17:42 •1798次阅读

欧拉 Summit 2021 安全&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;可靠性&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;运维专场：主流备份技术探讨

存储类&作用域&生命周期&链接属性

目录前言一、存储类&amp;amp;作用域&amp;amp;生命周期&amp;amp;链接属性的

发表于 12-09 15:51 •5次下载

存储类&<b class='flag-5'>amp</b>;作用域&<b class='flag-5'>amp</b>;生命周期&<b class='flag-5'>amp</b>;链接属性

2021 Kubernetes on AI &amp;amp;amp; Edge Day圆满举行共探边缘云融合

2021年12月11日－12日，由Linux基金会、LF AI &amp;DATA、LF Edge、CNCF、LFN等开源社区联合举办，开源科技OSTech和西丽湖人才服务中心协办的Kubernetes on AI &amp;

的头像

发表于 12-16 09:43 •5295次阅读

2021 Kubernetes on AI &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; Edge Day圆满举行共探边缘云融合

如何区分Java中的&amp;和&amp;&amp;

首先给i赋值为0，如果i大于10，并且i++等于1，则输出“错误”和i的值。否则输出“正确”和i的值。分别用&amp;和&amp;&amp;运行，观察运行结果的不同。

的头像

发表于 02-24 10:46 •1534次阅读

如何区分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

if(a==1 &amp;&amp; a==2 &amp;&amp; a==3)，为true，你敢信？

接下来咱们来尝试解决这个问题。假设 if(a==1&amp;&amp;a==12)是等于 true的，那么a肯定不可能是一个“普通的变量”。它势必要有能力在执行的时候能够动态改动值。

的头像

发表于 05-08 11:01 •1105次阅读

if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3)，为true，你敢信？

HarmonyOS &amp;amp;amp;润和HiSpark 实战开发，“码”上评选活动，邀您来赛！！！

出色的系统助力优秀的设备为应用开发者带来丰富的体验与想象空间正如当HarmonyOS遇见润和HiSpark 这万物互联的时代将由你的&amp;lt; 代码 &amp;gt;来定义润

的头像

发表于 04-11 15:33 •1165次阅读

HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;润和HiSpark 实战开发，“码”上评选活动，邀您来赛！！！

你使用shell脚本中的2&gt;&amp;1了吗？

run_cmax > ./starrc_cmax.logs 2>&amp;1中的 2>&amp;1是啥意思?

的头像

发表于 07-30 14:44 •1906次阅读

摄像机&amp;amp;雷达对车辆驾驶的辅助

摄像机&amp;amp;雷达担负着可辅助驾驶员安全驾驶的、高级驾驶辅助系统的传感功能。尼得科正在进一步推进摄像机&amp;amp;雷达的高性能化进程。

的头像

发表于 11-26 10:02 •902次阅读

摄像机&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;雷达对车辆驾驶的辅助

解读北美运营商，AT&amp;amp;T的认证分类与认证内容分享

在数字化日益深入的今天，通信技术的稳定与安全对于个人、企业乃至整个国家都至关重要。作为北美通信领域的领军者，AT&amp;T一直致力于为用户提供高效、可靠的通信服务。而在这背后，AT&amp;T

的头像

发表于 06-05 17:27 •590次阅读

解读北美运营商，AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的认证分类与认证内容分享

FS201资料（pcb &amp; DEMO &amp; 原理图）

电子发烧友网站提供《FS201资料（pcb &amp; DEMO &amp; 原理图）.zip》资料免费下载

发表于 07-16 11:24 •0次下载

onsemi LV/MV MOSFET 产品介绍 &amp;amp; 行业应用

01直播介绍直播时间2024/10/281430直播内容1.onsemiLV/MVMOSFET产品优势&amp;市场地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10

的头像

发表于 10-13 08:06 •382次阅读

onsemi LV/MV MOSFET 产品介绍 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行业应用