一个用于6D姿态估计和跟踪的统一基础模型-电子发烧友网

0. 笔者个人体会

今天笔者将为大家分享NVIDIA的最新开源方案FoundationPose，是一个用于 6D 姿态估计和跟踪的统一基础模型。只要给出CAD模型或少量参考图像，FoundationPose就可以在测试时立即应用于新物体，无需任何微调，关键是各项指标明显优于专为每个任务设计的SOTA方案。

下面一起来阅读一下这项工作，文末附论文和代码链接~

1. 效果展示

FoundationPose实现了新物体的6D姿态估计和跟踪，支持基于模型和无模型设置。在这四个任务中的每一个上，FoundationPose都优于专用任务的SOTA方案。(·表示仅RGB，×表示RGBD)。这里也推荐工坊推出的新课程《单目深度估计方法：算法梳理与代码实现》。

2. 具体原理是什么？

为减少大规模训练的人工工作，FoundationPose利用3D模型数据库、大型语言模型和扩散模型等新技术，开发了一种新的合成数据生成Pipeline。为了弥补无模型和基于模型的设置之间的差距，FoundationPose利用以对象为中心的神经场来进行随后的渲染和新视图RGBD渲染。

对于姿态估计，首先在物体周围均匀地初始化全局姿态，然后通过细化网络对其进行细化。最后将改进的位姿转发给姿态选择模块，预测位姿的分数，输出得分最高的位姿。

3. 和其他SOTA方法对比如何？

YCB-Video数据集上Model-free方案的位姿估计定量结果对比。

YCB-Video数据集上位姿跟踪的定量对比。这里也推荐工坊推出的新课程《单目深度估计方法：算法梳理与代码实现》。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

4. 论文信息

标题：FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

作者：Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield

机构：NVIDIA

原文链接：https://arxiv.org/abs/2312.08344

代码链接：https://github.com/NVlabs/FoundationPose

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4986

浏览量
103065
RGB

RGB

+关注

关注
4

文章
798

浏览量
58509

原文标题：通用性超强！同时实现6D位姿估计和跟踪！

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

KerasHub统一、全面的预训练模型库

深度学习领域正在迅速发展，在处理各种类型的任务中，预训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名，始终处于这一动向的前沿。Keras 拥有专用的内容库，如用于

发表于 12-20 10:32 •102次阅读

CNN, RNN, GNN和Transformer模型的统一表示和泛化误差理论分析

背景介绍本文是基于我们之前的 RPN（Reconciled Polynomial Network）研究的后续工作。在此前的研究中，我们提出了 RPN 这一通用模型架构，其包含三个组件函数：数据扩展

发表于 12-06 11:31 •214次阅读

CNN, RNN, GNN和Transformer<b class='flag-5'>模型</b>的<b class='flag-5'>统一</b>表示和泛化误差理论分析

光学跟踪测量系统如何工作的

、姿态等参数，实现对目标物体的精确跟踪和测量。其工作原理主要包括以下几个步骤：光源发射：光学跟踪测量系统首先需要一个光源，

发表于 08-29 17:26 •733次阅读

意法半导体新款MEMS IMU LSM6DSV32X实现精确姿态识别应用

凭借3核、6轴传感架构，意法半导体新款MEMS IMU LSM6DSV32X能够进行卓越的边缘计算处理，是智能手机的高精度感测和3D地图、笔记本电脑和平板电脑的情境感知、AR和VR的精确姿态

发表于 08-01 10:15 •819次阅读

包含具有多种类型信息的3D模型

Desktop是一个3D建模CAD程序，用于多种绘图和设计，涵盖建筑、土木和机械工程，以及室内设计、产品设计、景观建筑甚至游戏开发。它通常用于

发表于 03-28 17:18

Franka Robotics推出“Franka AI Companion”助力机器人领域研究创新

Isaac Manipulator等软件组件，使用NVIDIA Jetson Orin将GPU功率与实时机器人控制无缝集成，无需额外资源，并采用高精度 NVIDIA AI基础模型用于6D姿态

发表于 03-20 22:01 •402次阅读

国产6D激光跟踪仪测量大尺寸空间姿态

与普通CMM相比，激光跟踪仪的特点是能够测量大型测量目标物。随着工业制造的发展和智能化的要求，对精度和效率的需求越来越高。激光跟踪仪具有的高精度、高速度、非接触式测量等优势，可以满足工业制造中对精确

发表于 02-03 10:39 •0次下载

激光跟踪仪|国产6D跟踪仪测量大尺寸空间姿态

激光跟踪仪基于激光干涉和测距原理，能测量大型目标物，具有高精度、高速度和非接触式测量等优势。它在工业制造领域有广泛应用，如汽车制造和航空航天制造。技术创新与发展趋势主要体现在精度和稳定性提升、应用领域扩大、可靠性和稳定性改进以及自动化应用推进。

发表于 01-31 09:14 •605次阅读

高分工作！Uni3D：3D基础大模型，刷新多个SOTA！

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域，scale up大

发表于 01-30 15:56 •880次阅读

【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署后期尝试

这里主要还是感觉上一期说的一些对于人体姿态估计模型的前期调研，进行后期的部署的一些尝试。下面主要

发表于 01-22 10:46

【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署后期尝试

这里主要还是感觉上一期说的一些对于人体姿态估计模型的前期调研，进行后期的部署的一些尝试。下面主要

发表于 01-21 00:49

【先楫HPM5361EVK开发板试用体验】06-基于MPU9250的姿态解算

采用欧拉角、四元数或旋转矩阵等方式来表示物体的姿态，欧拉角会更加直观一点。而欧拉角是一种用于描述物体在三维空间中姿态的表示方法，它通过三

发表于 01-17 14:55

陀螺仪LSM6DSV16X与AI集成(5)----6D方向检测功能

、4.Y轴反向旋转、5.Z轴正向旋转、6.Z轴反向旋转通过检测陀螺仪在每个方向上的旋转，可以确定物体的旋转姿态和方向，从而用于导航、飞行控制等应用。

发表于 01-09 16:14 •1146次阅读

使用爱芯派Pro开发板部署人体姿态估计模型

部署模型的整体架构。接下来就回到最开始定的主线上了——人体姿态估计。这篇文章就是记录对一些轻量化人体姿态

发表于 01-09 09:50 •1432次阅读

【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署前期准备

部署模型的整体架构。接下来就回到最开始定的主线上了——人体姿态估计。这篇文章就是记录对一些轻量化人体姿态

发表于 01-01 01:04