一种基于去遮挡和移除的3D交互手姿态估计框架-电子发烧友网

本文主要介绍商汤智能感知终端团队，发表在 ECCV 2022 上的工作。针对3D交互双手姿态估计问题，作者采用分而治之的策略，把交互的双手姿态估计问题，解耦成两个单手姿态估计问题。

作者提出了一种基于去遮挡和移除的3D交互手姿态估计框架，补全目标手被遮挡的部分，并移除另一只有干扰的手。此外，作者还构建了一个大规模数据集Amodal InterHand Dataset (AIH)，用以训练手势去遮挡和移除网络。实验结果表明，论文提出的框架在InterHand2.6M 和 Tzionas 两个主流的公开数据集上，都获得了显著的性能提升。

Part 1动机和背景

图1 本文算法（右）与baseline（左）的对比

手，是人和世界交互的主要工具。3D交互手姿态估计，指从单目彩色图中，恢复出一个人两只互相交互的手的骨架。它是人机交互、AR/VR、手语理解等诸多现实应用的基础。与被充分研究的单手姿态估计任务不同，交互手3D姿态估计是近两年来刚兴起的学术方向。

现存的工作会直接同时预测交互手的左右两手的姿态，而我们则另辟蹊径，将交互手姿态估计任务，解耦成左右两手分别的单手姿态估计任务。这样，我们就可以充分利用当下单手姿态估计技术的最新进展。然而相比通常的单手姿态估计任务来说，交互手姿态估计有以下两个难点：一是左右手间可能存在的严重的遮挡，难以估计被遮挡的手的姿态；二是左右手颜色纹理相近有歧义性，预测一只手的姿态可能会因另一只手的存在而被干扰。

为了解决这两个困难，我们提出了去遮挡和移除框架，旨在预测一只手的姿态时，补全它被遮挡的部分，并移除有干扰的另一只手的部分。由图1的示例可见，在用去遮挡和移除框架后，交互手的图片会恢复右手被遮挡的部分，也会移除有干扰的左手的部分，进而转换成右手的单手姿态估计任务。

此外，我们还构建了第一个大规模的合成交互手数据集（Amodal InterHand Dataset）。该数据集具有很多应用前景，如交互式双手姿态估计、Amodal & modal的实例分割、以及手部去遮挡。

Part 2方法

图2 本文提出的框架示意图

本文的框架包括三个部分：手部非模态分割模块（HASM）、手部去遮挡和移除模块（HDRM）、单手姿态估计模块（SHPE）。

我们首先用HASM去分割图像中左右手的模态和非模态掩码，在得到掩码后，我们可以分别定位左右两手的位置并对图片进行裁剪。

之后，我们利用HDRM恢复手被遮挡的部分并移除另一只有干扰的手。

这样，一个交互手的图片会被转换成左右两手的单个手的图片，通过SHPE后可以得到左右手分别的姿态。

2.1 手部非模态分割模块（HASM）

我们基于mmsegmentation框架，从交互手的图片中分割出四种掩码：左手可见区域、左手完整区域、右手可见区域和右手完整区域。

2.2 手部去遮挡和移除模块（HDRM）

图3 HDRNet示意图以右手为例，首先根据2.1预测的掩码，以右手完整部分掩码为中心，裁剪得到图片。

而HDRNet的输入则有以下四部分拼接而成：（1）图片右手被遮挡区域被涂黑；（2）右手可见部分掩码；（3）I图片左手多余区域被涂黑；（4）除左右两手外的背景区域的掩码。

我们借鉴经典的inpainting方法中的网络结构(UNet + Partial Convolutions)，并在其中加入了一些Transformer结构，来增强图像特征、扩大感受野，以及让网络关注更重要的图像区域。

网络HDRNet最终预测出右手被遮挡区域的像素，以及左手多余区域背后背景的像素，这样最终预测结果即为单个右手的图片。

2.3 单手姿态估计模块（SHPE）

由于SHPE不是本文的重点，因此我们使用了一个简单有效的开源方法MinimalHand作为我们的baseline。

Part3AIH虚拟交互手数据集

图4 AIH数据集中的样例为了充分训练我们提出的HDRM网络，我们基于InterHand2.6M V1.0数据集，构建了第一个大规模的虚拟合成的Amodal交互手数据集（AIH）。

AIH有大约300万样本组成，其中AIH_Syn 有220万样本，AIH_Render有70万样本。前者是将InterHand2.6M V1.0数据集的单个右手或单个左手的图片，进行复制粘贴，合成的交互手图片。

后者是将InterHand2.6M V1.0数据集的双手mesh装饰上纹理，经过随机的旋转和平移，最终渲染到随机的数据集背景上得到的图片。图4展示了AIH数据集的可视化效果。

Part 4实验结果

我们在 InterHand2.6M V1.0 和 Tzionas 两个主流的数据集上做了实验。如表1和表2所示，定量实验表明，我们提出的算法，取得了最优的精度。

而且在耗时方面，在Tesla P40机器上单个样本预测，HDRM（我们的主要贡献点）只需要0.6ms，占整个框架预测时间47.2ms中很小一部分。更多可视化效果见图5。

表1InterHand2.6M V1.0 数据集的定量结果对比

表2Tzionas 数据集的定量结果对比

图5 更多可视化结果

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1799

文章
48047

浏览量
241946
智能传感器

智能传感器

+关注

关注
16

文章
604

浏览量
55486
计算机视觉

计算机视觉

+关注

关注
8

文章
1702

浏览量
46225

原文标题：ECCV 2022 | 基于去遮挡和移除的3D交互双手姿态估计

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

用于黑暗中视觉自我运动估计的新型主动照明框架

本文提出一种新型主动照明框架，通过动态控制可移动光源主动照亮高纹理区域，显著提升VO与VSLAM算法在极端光照条件下的性能。在真实机器人平台上进行的实验表明，相比传统固定照明方法，本文方法可将姿态

发表于 02-28 14:29 •94次阅读

用于黑暗中视觉自我运动<b class='flag-5'>估计</b>的新型主动照明<b class='flag-5'>框架</b>

SciChart 3D for WPF图表库

SciChart 3D for WPF 是一个实时、高性能的 WPF 3D 图表库，专为金融、医疗和科学应用程序而设计。非常适合需要极致性能和丰富的交互式

发表于 01-23 13:49 •199次阅读

SciChart <b class='flag-5'>3D</b> for WPF图表库

一种3D交联导电粘结剂用于硅负极Angew

硅（Si）负极在高容量锂离子电池（LIBs）中具有巨大潜力，但其实际应用受到严重体积膨胀和机械退化的阻碍。为了解决这些挑战，我们提出了一种创新的3D交联导电聚噁二唑（POD）粘结剂，通过甘油（GL

发表于 01-20 13:56 •187次阅读

<b class='flag-5'>一种</b><b class='flag-5'>3D</b>交联导电粘结剂用于硅负极Angew

Google DeepMind发布Genie 2：打造交互式3D虚拟世界

的交互式体验。据了解，Genie 2是一个自回归潜在扩散模型，它基于大型视频数据集进行训练。通过自动编码器，视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与大语言模型类似的因果掩码进行训练，从而实现了对3D

发表于 12-05 14:16 •743次阅读

一文理解2.5D和3D封装技术

随着半导体行业的快速发展，先进封装技术成为了提升芯片性能和功能密度的关键。近年来，作为2.5D和3D封装技术之间的一种结合方案，3.5D封装技术逐渐走向前台。

发表于 11-11 11:21 •2229次阅读

一种全新开源SfM框架MASt3R

运动恢复结构（SfM）是计算机视觉领域一个长期存在的问题，旨在根据每个相机拍摄的图像来估计场景的3D几何结构以及观测该场景的相机的参数。由于它方便地同时为相机和地图提供信息，因此构成了许多实用计

发表于 10-28 14:13 •999次阅读

物联网行业中的模具定制方案_3D打印材料选型分享

3D打印材料介绍 3D打印技术是一种快速制造技术，它可以将数字模型转化为实体物体。3D打印材料是3D打印技术中不可或缺的

发表于 09-25 10:59 •465次阅读

裸眼3D笔记本电脑——先进的光场裸眼3D技术

随着科技的不断进步，裸眼3D技术已经不再是科幻电影中的幻想。如今，英伦科技裸眼3D笔记本电脑将这一前沿科技带到了我们的日常生活中。无论你是专业的3D模型设计师，还是希望在视频播放和模型

发表于 07-16 10:04 •732次阅读

3D建模的重要内容和应用

3D建模是一种技术，通过计算机软件创建虚拟三维模型，模拟现实世界中的物体或场景。这项技术广泛应用于建筑设计、电影制作、游戏开发、工程仿真等领域。下面古河云科技将介绍一些与3D建模相关的

发表于 06-21 14:48 •889次阅读

英伦科技10.1寸裸眼3D平板电脑的五大特点

选择英伦科技的裸眼3D平板电脑，就是选择了一种全新的视觉体验。它的裸眼3D视频观看功能、光场裸眼3D技术、卓越的硬件配置、丰富的软件支持以及人性化的设计理念，都是您不容错过的选择。现在

发表于 06-12 15:15 •548次阅读

什么是光场裸眼3D？

光场裸眼3D技术，是一种无需任何辅助设备（如3D眼镜或头显）即可产生真实三维效果的技术。它通过特殊的显示设备，精确控制光线的方向和强度，使观察者在不同的角度都能看到清晰、连续的立体图像。这种技术的核心在于模拟人眼对真实世界的观察

发表于 05-27 14:21 •1489次阅读

3D建模的特点和优势都有哪些？

3D建模是一种用于创建三维对象的过程，它在许多领域都有着广泛的应用，包括动画、游戏开发、建筑设计、工程以及制造业等。下面古河云科技将介绍一些关于3D建模的内容详情，包括它的特点、优势以

发表于 05-13 16:41 •2982次阅读

机器人3D视觉引导系统框架介绍

通过自主开发的3D扫描仪可获准确并且快速地获取场景的点云图像，通过3D识别算法，可实现在对点云图中的多种目标物体进行识别和位姿估计。

发表于 04-29 09:31 •414次阅读

包含具有多种类型信息的3D模型

、安全和高效的建筑系统，让居住者能够拥有可持续、弹性舒适且符合人体工程学的建筑。建筑信息模型（BIM）是建筑工程师在建筑物和其他结构设计中使用的一种3D建模过程。BIM软件提供了一个基于模型

发表于 03-28 17:18

有了2D NAND，为什么要升级到3D呢？

2D NAND和3D NAND都是非易失性存储技术（NVM Non-VolatileMemory），属于Memory（存储器）的一种。

发表于 03-17 15:31 •1208次阅读