0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于去遮挡和移除的3D交互手姿态估计框架

工程师邓生 来源:商汤学术 作者:孟浩、金晟 2022-09-14 16:30 次阅读

本文主要介绍商汤智能感知终端团队,发表在 ECCV 2022 上的工作。针对3D交互双手姿态估计问题,作者采用分而治之的策略,把交互的双手姿态估计问题,解耦成两个单手姿态估计问题。

作者提出了一种基于去遮挡和移除的3D交互手姿态估计框架,补全目标手被遮挡的部分,并移除另一只有干扰的手。此外,作者还构建了一个大规模数据集Amodal InterHand Dataset (AIH),用以训练手势去遮挡和移除网络。实验结果表明,论文提出的框架在InterHand2.6M 和 Tzionas 两个主流的公开数据集上,都获得了显著的性能提升。

7bb4cbfa-305d-11ed-ba43-dac502259ad0.png      

Part 1动机和背景

7c04d99c-305d-11ed-ba43-dac502259ad0.jpg

图1 本文算法(右)与baseline(左)的对比

手,是人和世界交互的主要工具。3D交互手姿态估计,指从单目彩色图中,恢复出一个人两只互相交互的手的骨架。它是人机交互、AR/VR、手语理解等诸多现实应用的基础。 与被充分研究的单手姿态估计任务不同,交互手3D姿态估计是近两年来刚兴起的学术方向。

现存的工作会直接同时预测交互手的左右两手的姿态,而我们则另辟蹊径,将交互手姿态估计任务,解耦成左右两手分别的单手姿态估计任务。这样,我们就可以充分利用当下单手姿态估计技术的最新进展。 然而相比通常的单手姿态估计任务来说,交互手姿态估计有以下两个难点:一是左右手间可能存在的严重的遮挡,难以估计被遮挡的手的姿态;二是左右手颜色纹理相近有歧义性,预测一只手的姿态可能会因另一只手的存在而被干扰。

为了解决这两个困难,我们提出了去遮挡和移除框架,旨在预测一只手的姿态时,补全它被遮挡的部分,并移除有干扰的另一只手的部分。由图1的示例可见,在用去遮挡和移除框架后,交互手的图片会恢复右手被遮挡的部分,也会移除有干扰的左手的部分,进而转换成右手的单手姿态估计任务。

此外,我们还构建了第一个大规模的合成交互手数据集(Amodal InterHand Dataset)。该数据集具有很多应用前景,如交互式双手姿态估计、Amodal & modal的实例分割、以及手部去遮挡。

Part 2方法

7c365d00-305d-11ed-ba43-dac502259ad0.jpg

图2 本文提出的框架示意图

本文的框架包括三个部分:手部非模态分割模块(HASM)、手部去遮挡和移除模块(HDRM)、单手姿态估计模块(SHPE)。

我们首先用HASM去分割图像中左右手的模态和非模态掩码,在得到掩码后,我们可以分别定位左右两手的位置并对图片进行裁剪。

之后,我们利用HDRM恢复手被遮挡的部分并移除另一只有干扰的手。

这样,一个交互手的图片会被转换成左右两手的单个手的图片,通过SHPE后可以得到左右手分别的姿态。

2.1 手部非模态分割模块(HASM)

我们基于mmsegmentation框架,从交互手的图片中分割出四种掩码:左手可见区域、左手完整区域、右手可见区域和右手完整区域。

2.2 手部去遮挡和移除模块(HDRM)

7c4e1c60-305d-11ed-ba43-dac502259ad0.jpg

图3 HDRNet示意图 以右手为例,首先根据2.1预测的掩码,以右手完整部分掩码为中心,裁剪得到图片。

而HDRNet的输入则有以下四部分拼接而成:(1)图片右手被遮挡区域被涂黑;(2)右手可见部分掩码;(3)I图片左手多余区域被涂黑;(4)除左右两手外的背景区域的掩码。

我们借鉴经典的inpainting方法中的网络结构(UNet + Partial Convolutions),并在其中加入了一些Transformer结构,来增强图像特征、扩大感受野,以及让网络关注更重要的图像区域。

网络HDRNet最终预测出右手被遮挡区域的像素,以及左手多余区域背后背景的像素,这样最终预测结果即为单个右手的图片。

2.3 单手姿态估计模块(SHPE)

由于SHPE不是本文的重点,因此我们使用了一个简单有效的开源方法MinimalHand作为我们的baseline。

Part3AIH虚拟交互手数据集

7c741712-305d-11ed-ba43-dac502259ad0.jpg

图4 AIH数据集中的样例 为了充分训练我们提出的HDRM网络,我们基于InterHand2.6M V1.0数据集,构建了第一个大规模的虚拟合成的Amodal交互手数据集(AIH)。

AIH有大约300万样本组成,其中AIH_Syn 有220万样本,AIH_Render有70万样本。前者是将InterHand2.6M V1.0数据集的单个右手或单个左手的图片,进行复制粘贴,合成的交互手图片。

后者是将InterHand2.6M V1.0数据集的双手mesh装饰上纹理,经过随机的旋转和平移,最终渲染到随机的数据集背景上得到的图片。图4展示了AIH数据集的可视化效果。

Part 4实验结果

我们在 InterHand2.6M V1.0 和 Tzionas 两个主流的数据集上做了实验。如表1和表2所示,定量实验表明,我们提出的算法,取得了最优的精度。

而且在耗时方面,在Tesla P40机器上单个样本预测,HDRM(我们的主要贡献点)只需要0.6ms,占整个框架预测时间47.2ms中很小一部分。更多可视化效果见图5。

表1InterHand2.6M V1.0 数据集的定量结果对比

7c9c08da-305d-11ed-ba43-dac502259ad0.jpg

表2Tzionas 数据集的定量结果对比

7cbac54a-305d-11ed-ba43-dac502259ad0.jpg7cd8c9dc-305d-11ed-ba43-dac502259ad0.jpg

图5 更多可视化结果



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47183

    浏览量

    238265
  • 智能传感器
    +关注

    关注

    16

    文章

    596

    浏览量

    55303
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    45977

原文标题:ECCV 2022 | 基于去遮挡和移除的3D交互双手姿态估计

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    文理解2.5D3D封装技术

    随着半导体行业的快速发展,先进封装技术成为了提升芯片性能和功能密度的关键。近年来,作为2.5D3D封装技术之间的一种结合方案,3.5D封装技术逐渐走向前台。
    的头像 发表于 11-11 11:21 1052次阅读
    <b class='flag-5'>一</b>文理解2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封装技术

    一种全新开源SfM框架MASt3R

    运动恢复结构(SfM)是计算机视觉领域个长期存在的问题,旨在根据每个相机拍摄的图像来估计场景的3D几何结构以及观测该场景的相机的参数。由于它方便地同时为相机和地图提供信息,因此构成了许多实用计
    的头像 发表于 10-28 14:13 519次阅读
    <b class='flag-5'>一种</b>全新开源SfM<b class='flag-5'>框架</b>MASt<b class='flag-5'>3</b>R

    英伦科技10.1寸裸眼3D平板电脑的五大特点

    选择英伦科技的裸眼3D平板电脑,就是选择了一种全新的视觉体验。它的裸眼3D视频观看功能、光场裸眼3D技术、卓越的硬件配置、丰富的软件支持以及人性化的设计理念,都是您不容错过的选择。现在
    的头像 发表于 06-12 15:15 416次阅读
    英伦科技10.1寸裸眼<b class='flag-5'>3D</b>平板电脑的五大特点

    什么是光场裸眼3D

    光场裸眼3D技术,是一种无需任何辅助设备(如3D眼镜或头显)即可产生真实三维效果的技术。它通过特殊的显示设备,精确控制光线的方向和强度,使观察者在不同的角度都能看到清晰、连续的立体图像。这种技术的核心在于模拟人眼对真实世界的观察
    的头像 发表于 05-27 14:21 1075次阅读
    什么是光场裸眼<b class='flag-5'>3D</b>?

    3D建模的特点和优势都有哪些?

    3D建模是一种用于创建三维对象的过程,它在许多领域都有着广泛的应用,包括动画、游戏开发、建筑设计、工程以及制造业等。下面古河云科技将介绍些关于3D建模的内容详情,包括它的特点、优势以
    的头像 发表于 05-13 16:41 2397次阅读

    机器人3D视觉引导系统框架介绍

    通过自主开发的3D扫描仪可获准确并且快速地获取场景的点云图像,通过3D识别算法,可实现在对点云图中的多种目标物体进行识别和位姿估计
    发表于 04-29 09:31 333次阅读
    机器人<b class='flag-5'>3D</b>视觉引导系统<b class='flag-5'>框架</b>介绍

    包含具有多种类型信息的3D模型

    、安全和高效的建筑系统,让居住者能够拥有可持续、弹性舒适且符合人体工程学的建筑。建筑信息模型 (BIM) 是建筑工程师在建筑物和其他结构设计中使用的一种3D建模过程。BIM软件提供了个基于模型
    发表于 03-28 17:18

    有了2D NAND,为什么要升级到3D呢?

    2D NAND和3D NAND都是非易失性存储技术(NVM Non-VolatileMemory),属于Memory(存储器)的一种
    的头像 发表于 03-17 15:31 1015次阅读
    有了2<b class='flag-5'>D</b> NAND,为什么要升级到<b class='flag-5'>3D</b>呢?

    3D HMI应用场景和发展趋势

    的革命性趋势。本文将探讨3DHMI设计的概念、优势、应用场景以及未来发展趋势。3DHMI设计的概念3DHMI设计是一种基于三维界面和人机交互
    的头像 发表于 02-19 13:27 1148次阅读
    <b class='flag-5'>3D</b> HMI应用场景和发展趋势

    Exaddon开发了一种低于20μm间距进行细间距探测的3D微打印探针

    总部位于瑞士的微型 3D 打印公司Exaddon 开发了能够以低于 20 μm 间距进行细间距探测的 3D微打印探针。细间距探针测试是用于测试半导体芯片的极其复杂且精确的过程。
    的头像 发表于 01-26 18:23 1782次阅读

    怎么使用激光扫描技术(VCJ)增强的3D打印呢?

    一种创新型的激光扫描技术可以快速地实现多种材料3D打印,实现:结构更精细,材料更多样。
    的头像 发表于 01-15 16:47 550次阅读

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法。
    的头像 发表于 01-13 11:37 1061次阅读

    一种用于2D/3D图像处理算法的指令集架构以及对应的算法部署方法

    二维(2D)和三维(3D)双模视觉信息在自动驾驶、工业机器人、人机交互等前沿领域具有广泛的应用前景。
    的头像 发表于 01-05 10:35 458次阅读
    <b class='flag-5'>一种</b>用于2<b class='flag-5'>D</b>/<b class='flag-5'>3D</b>图像处理算法的指令集架构以及对应的算法部署方法

    【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署前期准备

    的。 2、VR游戏:大家可能用过像kinect这样的设备,用于VR体感游戏。kinect同样会识别当前用户的姿态,然后用于VR交互中。 3、活动识别。通过得到人体姿态后,再通过
    发表于 01-01 01:04

    文了解3D视觉和2D视觉的区别

    文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两不同的视觉模式,其区别主要体现在立体感
    的头像 发表于 12-25 11:15 3018次阅读