0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3D姿态估计 时序卷积+半监督训练

电子设计 来源:电子设计 作者:电子设计 2020-12-08 22:54 次阅读
首发:AIWalker

标题&作者团队

1. 论文简要

在这项工作中,视频中的3D姿态可以通过全卷积模型来估计,具体是在二维关键点上通过空洞时间卷积的模型得到3D姿态。我们还介绍了一种不带标签(反向投影)的半监督式训练方法。我们先从未标注视频中得到2D姿态,然后估计3D姿态和最后反向投影到输入的2D关键点。在实验中,全卷积模型相比之前state-of-arts,在Human3.6 M上平均每个关节位置误差小6mm,对应误差降低11%,模型在HumanEva-I中也有显著改进。

代码和模型的下载地址:https://github.com/facebookre...

2. 背景介绍

我们的工作重点是视频中的三维人体姿态估计。我们以最先进的方法为基础,然后将问题描述为2D关键点检测三维姿态估计,这种方法可能导致不同的3D姿态对应相同的2D关键点。早期为解决这一问题主要通过RNN构建时序信息,但是由于RNN的串行结构无法多帧并行处理,因此本文提出一个完整的卷积架构,在二维关键点上执行时序卷积用于视频中准确的三维姿态预测,该方法兼容任何二维关键点检测器,并能通过空洞卷积有效地处理较大的上下文信息。与依赖RNNs的方法相比,它在计算复杂度和参数数量方面都提供了更高的精度、简单性和效率。

在构建一个高度精确和高效的架构之后,接下来需要关注训练数据,本文引入了半监督训练的方案,因为3D姿态的监督学习需要大量的带标签的训练数据,收集3D人体姿态标签需要昂贵的动作捕捉设备和长时间录制。本文的方法的灵感来自于无监督机器翻译中的循环一致性,即翻译到中间语言和翻译回原始语言的往返应该接近恒等函数。具体地说,使用现有的2D关键点检测器为未标记的视频预测2D关键点,然后预测3D姿态,最后将它们映射回2D空间中。

本文创新点有两个:(1)在网络结构方面,基于空洞时序卷积将2D关键点轨迹推理出3D人体姿态,在计算量和模型参数量上远小于基于RNN的模型;(2)在训练数据方面,采用半监督学习解决数据量不足的问题,相比于其他方法,该方法仅仅需要相机内部参数(数据增强的过程中需要相机参数对ground-truth姿态进行几何变换),不需要2D标签或带有外部摄像机参数的多视图图像。

image-20201126105219606

3. 相关工作

深度学习成功之前,大部分的三维姿态估计方法都是基于特征工程和骨骼和关节灵活性的假设。目前大多数的姿态估计方法是在二维姿态估计器的基础上,建立了一种新的三维姿态估计器,然后 被提升到3D空间中。

视频姿态估计,大多数以前的工作都是在单帧的背景下进行的,但最近几年利用视频的时间信息来产生更可靠的预测,并降低对噪音的敏感性。最近,有人提出了LSTM序列到序列学习模型,该模型将视频中的二维姿态序列编码为固定大小的向量,然后解码为三维姿态序列。然而,输入和输出序列具有相同的长度,2D姿态的确定性转换是更自然的选择。用seq2seq模型进行的实验表明,输出姿势在较长的序列上容易产生漂移。

4. 本文方法

4.1 时序空洞卷积模型

image-20201126112311029

我们的模型是一个具有残差结构的完全卷积的架构,它将一个2D姿态序列作为输入,并通过时间卷积对其进行转换。卷积模型允许在批处理维度和时间维度上并行化,而RNNs不能在时间维度上并行化。在卷积模型中,无论序列长度如何,输出和输入之间的梯度路径都是固定长度的,这可以缓解影响RNN的消失和爆炸梯度。卷积架构也提供了对时间感受域的精确控制,这有利于建立三维姿态估计任务的时间依赖模型。此外,使用空洞卷积能够对长期依赖关系进行建模,同时也保持较高计算效率。(上图表示带有2D关键点的243帧图像,经过网络推理得到3D关节点)

4.2 半监督训练方法

image-20201126113555405

本文引入了一种半监督训练方法,以提高真实的标记数据不足的情况下的模型的准确性。我们利用未标记的视频,然后结合一个现成的2D关键点检测器,来扩展监督损失函数一个反向投影损失项。解决了未标记数据的自动编码问题:编码器(位姿估计器)根据二维关节坐标进行三维位姿估计,解码器(投影层)将三维位姿投影回二维关节坐标。当来自解码器的二维关节坐标远离原始输入时,训练就会受到惩罚。

上图将监督组件与充当正则化器的非监督组件组合在一起。这两个目标是共同优化的,标记数据占据Batch的前半部分,未标记数据占据Batch的后半部分一半。对于标记数据,我们使用真实三维姿态作为目标,训练一个监督损失。未标记的数据用于实现自动编码器损失,其中预测的3D姿态被投影回2D,然后检查与输入的一致性。

轨迹模型,由于透视投影,屏幕上的2D姿态都取决于轨迹(人体根节点整体位置,可以理解成人体中心点)和3D姿态(所有关节点相对于根关节的位置)。目标函数为每个关节的加权平均轨迹的位置误差(WMPJPE)。

骨骼长度损失,添加一个软约束来近似匹配未标记batch的受试者与已标记batch的受试者的平均骨长度。

5. 实验论证

5.1 数据集与评价标准

数据集有两个分别是Human3.6M,HumanEva-I,评价标准是Protocol 1: MPJPE(每个关节点的平均误差), Protocol 2:P-MPJPE(与标签数据对准后的平移、旋转、缩放误差),Protocol 3:N-MPJPE(只在比例上与真实标签相匹配)

5.2 2D姿态估计

2D姿态估计网络模型:stacked hourglass detector, Mask R-CNN with ResNet-101-FPN,CPN

5.3 3D姿态估计

image-20201126140916717

image-20201126141002629

image-20201126141144006

6. 总结

介绍了一个简单的完全卷积模型用于视频中三维人体姿态估计。网络结构利用时间信息在2D关键点轨迹上进行空洞卷积。这项工作的第二个贡献是反向投影,这是一种半监督训练方法,在标记数据稀缺的情况下提高性能。该方法适用于未标记的视频,只需要内在的摄像机参数,使其在运动捕捉具有挑战性的场景中切实可行。

7. 论文复现

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3664

    浏览量

    135194
  • 深度学习
    +关注

    关注

    73

    文章

    5512

    浏览量

    121499
收藏 人收藏

    评论

    相关推荐

    SciChart 3D for WPF图表库

    SciChart 3D for WPF 是一个实时、高性能的 WPF 3D 图表库,专为金融、医疗和科学应用程序而设计。非常适合需要极致性能和丰富的交互式 3D 图表的项目。 使用我们
    的头像 发表于 01-23 13:49 107次阅读
    SciChart <b class='flag-5'>3D</b> for WPF图表库

    腾讯混元3D AI创作引擎正式发布

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验,标志着腾讯在AI技术领域的又一重大突破。 混元3D AI创作引擎凭借其强大
    的头像 发表于 01-23 10:33 152次阅读

    腾讯混元3D AI创作引擎正式上线

    近日,腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具,标志着腾讯在3D内容生成领域迈出了重要一步。 混元3D AI创作引擎的核心功能极为强大,用户只需通过简单的提示词
    的头像 发表于 01-22 10:26 144次阅读

    透明塑料件喷粉3D扫描CAV全尺寸检测逆向3D建模设计服务-CASAIM

    3D建模
    中科院广州电子
    发布于 :2024年08月30日 10:04:53

    居然还有这样的10.1寸光场裸眼3D视觉训练平板电脑?

    在这个科技飞速发展的时代,我们为您带来了一款革命性的产品——10.1寸光场裸眼3D视觉训练平板电脑。这款平板电脑不仅让您无需佩戴3D眼镜就能享受逼真的立体视觉效果,还通过先进的技术帮助您缓解眼疲劳,提升视觉健康。
    的头像 发表于 07-25 14:09 311次阅读
    居然还有这样的10.1寸光场裸眼<b class='flag-5'>3D</b>视觉<b class='flag-5'>训练</b>平板电脑?

    裸眼3D笔记本电脑——先进的光场裸眼3D技术

    随着科技的不断进步,裸眼3D技术已经不再是科幻电影中的幻想。如今,英伦科技裸眼3D笔记本电脑将这一前沿科技带到了我们的日常生活中。无论你是专业的3D模型设计师,还是希望在视频播放和模型展示中体验逼真
    的头像 发表于 07-16 10:04 648次阅读

    神经网络如何用无监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律,从而提取有用的特征表示。这种
    的头像 发表于 07-09 18:06 891次阅读

    卷积神经网络训练的是什么

    训练过程以及应用场景。 1. 卷积神经网络的基本概念 1.1 卷积神经网络的定义 卷积神经网络是一种前馈深度学习模型,其核心思想是利用卷积
    的头像 发表于 07-03 09:15 512次阅读

    卷积神经网络的基本原理、结构及训练过程

    训练过程以及应用场景。 一、卷积神经网络的基本原理 卷积运算 卷积运算是卷积神经网络的核心,它是一种数学运算,用于提取图像中的局部特征。
    的头像 发表于 07-02 14:21 2968次阅读

    英伦科技裸眼3D视觉训练一体机的出现

    在数字化时代,保护视力已经成为每个人不容忽视的问题。英伦科技裸眼3D视觉训练一体机的出现,不仅为我们提供了一种全新的视觉享受方式,更为我们的眼睛健康带来了可靠的保障。让我们与英伦科技一起,为守护清晰视界而努力,让生活更加美好。
    的头像 发表于 06-04 10:06 372次阅读
    英伦科技裸眼<b class='flag-5'>3D</b>视觉<b class='flag-5'>训练</b>一体机的出现

    除了令人惊叹的裸眼3D显示技术,英伦科技裸眼3D视觉训练一体机还具备哪些特点?

    革命性的产品——英伦科技裸眼3D视觉训练一体机,它不仅带来了震撼的视觉效果,还能够帮助用户改善视力,缓解视力疲劳。
    的头像 发表于 06-04 09:28 493次阅读
    除了令人惊叹的裸眼<b class='flag-5'>3D</b>显示技术,英伦科技裸眼<b class='flag-5'>3D</b>视觉<b class='flag-5'>训练</b>一体机还具备哪些特点?

    机器人3D视觉引导系统框架介绍

    通过自主开发的3D扫描仪可获准确并且快速地获取场景的点云图像,通过3D识别算法,可实现在对点云图中的多种目标物体进行识别和位姿估计
    发表于 04-29 09:31 374次阅读
    机器人<b class='flag-5'>3D</b>视觉引导系统框架介绍

    ad19中3d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致的。
    发表于 04-24 13:41

    头盔3D扫描逆向工程3d建模抄数测绘服务-CASAIM中科广电

    3D扫描
    中科院广州电子
    发布于 :2024年04月12日 14:03:01

    3D动画原理:电阻

    电阻3D
    深圳崧皓电子
    发布于 :2024年03月19日 06:49:19