0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

iNeRF对RGB图像进行类别级别的物体姿态估计

电子工程师 来源:IROS 2021 作者:Lin Yen-Chen, Pete Fl 2022-08-10 11:37 次阅读

作者:Lin Yen-Chen, Pete Florence, Jonathan T. Barron, Alberto Rodriguez, Phillip Isola, Tsung-Yi Lin

摘要

我们提出了iNeRF,一个通过 “反转 ”神经辐射场(NeRF)来进行无网格姿势估计的框架。NeRFs已经被证明对合成真实世界场景或物体的逼真的新视图非常有效。在这项工作中,我们研究了是否可以通过NeRF来应用无网格、纯RGB的6DoF姿态估计的分析合成法:给定一个图像,找到摄像机相对于三维物体或场景的平移和旋转。我们的方法假定在训练或测试期间没有物体网格模型可用。从最初的姿势估计开始,我们使用梯度下降法来最小化从NeRF渲染的像素和观察到的图像中的像素之间的残差。在我们的实验中,我们首先研究:1)如何在iNeRF的姿势精化过程中对射线进行取样以收集信息梯度;2)不同批次的射线如何影响合成数据集上的iNeRF。然后我们表明,对于来自LLFF数据集的复杂的真实世界场景,iNeRF可以通过估计新的图像的相机姿态和使用这些图像作为NeRF的额外训练数据来改善NeRF。最后,我们展示了iNeRF可以通过反转从单一视图推断出的NeRF模型,对RGB图像进行类别级别的物体姿态估计,包括训练期间未见的物体实例。

主要贡献

总而言之,我们的主要贡献如下。

(i) 我们表明,iNeRF可以使用NeRF模型来估计具有复杂几何形状的场景和物体的6DoF姿态,而不需要使用3D网格模型或深度感应--只使用RGB图像作为输入。

(ii) 我们对射线采样和梯度优化的批量大小进行了深入研究,以确定iNeRF的稳健性和局限性。

(iii) 我们表明,iNeRF可以通过预测更多图像的相机姿态来改善NeRF,这些图像可以被添加到NeRF的训练集中。

(iv) 我们展示了对未见过的物体的类别级姿势估计结果,包括一个真实世界的演示。

主要方法

9eed7b3a-17e4-11ed-ba43-dac502259ad0.png

我们现在提出了iNeRF,一个通过 “反转 ”训练过的NeRF来执行6DoF姿态估计的框架。让我们假设一个场景或物体的NeRF的参数化Θ已经被恢复,并且相机的本征是已知的,但是图像观测I的相机位姿T还没有确定。与NeRF不同的是,NeRF使用一组给定的相机位姿和图像观测值来优化Θ,而我们要解决的是在给定权重Θ和图像I的情况下恢复相机姿势T的逆问题。

9f0ca69a-17e4-11ed-ba43-dac502259ad0.png

为了解决这个优化问题,我们利用NeRF的能力,在NeRF模型的坐标框架中采取一些估计的相机姿势T∈SE(3),并渲染相应的图像观察。然后,我们可以使用与NeRF相同的光度损失函数L,但我们不是通过反向传播来更新MLP的权重Θ,而是更新姿势T以最小化L。虽然倒置NeRF来进行姿势估计的概念可以简明扼要地说明,但这样的问题是否可以实际解决到一个有用的程度并不明显。损失函数L在SE(3)的6DoF空间上是非凸的,而且全图像的NeRF渲染在计算上很昂贵,特别是在优化程序的循环中使用。

1.基于梯度的SE(3)优化

将Θ定义为经过训练的固定的NeRF的参数,先验Ti是当前优化步骤i的估计相机姿势,I是观察到的图像,L(Ti | I, Θ)是用于训练NeRF中的精细模型的损失。我们采用基于梯度的优化来解决上面方程中定义的先验T。为了确保在基于梯度的优化过程中,估计的姿势先验Ti继续位于SE(3)流形上,我们用指数坐标为先验Ti设置参数。给定一个从相机帧到模型帧的初始姿势估计值先验T0∈SE(3),我们将先验Ti表示为:

9f22f634-17e4-11ed-ba43-dac502259ad0.png

我们通过MLP对损失函数进行迭代,得到梯度∇SθL(e [S]θT0 |I, Θ),用于更新估计的相对变换。我们使用Adam优化器,其学习率为指数衰减。对于每个观察到的图像,我们将Sθ初始化到0附近,其中每个元素都是从零均值正态分布N(0,σ=10-6)中随机抽取的。在实践中,用e[S]θ T0进行参数化,如果利用T0e[S]θ会导致旋转中心在初始估计的中心,而不是在摄像机帧的中心。这就减轻了优化过程中旋转和平移之间的耦合

2.光线采样

这里讨论了三种采样方法

随机采样:一个直观的策略是在图像平面上随机抽取M个像素点{p i x , piy}M i=0,并计算其对应的射线。事实上,NeRF本身在优化Θ时就使用了这种策略(假设不使用图像批处理)。我们发现,当射线的批处理量b较小时,这种随机采样策略的性能是无效的。大多数随机采样的像素对应于图像中平坦的、无纹理的区域,这些区域在姿势方面提供的信息很少(这与著名的光圈问题一致)。

兴趣特征点采样:我们提出了兴趣点抽样来指导iNeRF的优化,我们首先采用兴趣点检测器来定位观察图像中的一组候选像素位置。然后,我们从检测到的兴趣点中抽出M个点,如果检测到的兴趣点不够多,就回落到随机抽样。虽然这种策略使优化收敛得更快,因为引入了较少的随机性,但我们发现它很容易出现局部最小值,因为它只考虑观察图像上的兴趣点,而不是来自观察图像和渲染图像的兴趣点。然而,获得渲染图像中的兴趣点需要O(HW n)个前向MLP通道,因此在优化中使用的成本过高。

兴趣特征区域采样:为了防止只从兴趣点取样造成的局部最小值,我们建议使用 “兴趣区域 ”取样,这是一种放宽兴趣点取样的策略,从以兴趣点为中心的扩张掩模中取样。在兴趣点检测器对兴趣点进行定位后,我们应用5×5的形态学扩张进行I次迭代以扩大采样区域。在实践中,我们发现当射线的批量大小较小时,这样做可以加快优化速度。请注意,如果I被设置为一个大数字,兴趣区域采样就会退回到随机采样。

3.用iNeRF自我监督学习NeRF

除了使用iNeRF对训练好的NeRF进行姿态估计外,我们还探索使用估计的姿态来反馈到训练NeRF表示中。具体来说,我们首先根据一组已知相机姿势的训练RGB图像9f39b536-17e4-11ed-ba43-dac502259ad0.png来训练NeRF,产生NeRF参数Θtrain。然后,我们使用iNeRF来接收额外的未知姿势的观察图像{Ii}。Ntest i=1,并求解估计姿势先验Ti。Ntest i=1。鉴于这些估计的姿势,我们可以使用自我监督的姿势标签,将9f428800-17e4-11ed-ba43-dac502259ad0.png加入训练集。这个过程允许NeRF在半监督的情况下被训练。

主要结果

9f58ce1c-17e4-11ed-ba43-dac502259ad0.png

9f7b4bae-17e4-11ed-ba43-dac502259ad0.png

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 摄像机
    +关注

    关注

    3

    文章

    1571

    浏览量

    59875
  • 辐射
    +关注

    关注

    1

    文章

    591

    浏览量

    36271

原文标题:iNeRF:用于姿态估计的反向神经辐射场(IROS 2021)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于PoseDiffusion相机姿态估计方法

    的约束结合在一起,因此能够在稀疏视图和密集视图状态下以高精度重建相机位置,他们在概率扩散框架内公式化了SfM问题,对给定输入图像的相机姿态的条件分布进行建模,用Diffusion模型来辅助进行
    的头像 发表于 07-23 15:22 1252次阅读
    基于PoseDiffusion相机<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>方法

    纳米位移计真的可以测到纳米级别的物体的位移?

    纳米位移计真的可以测到纳米级别的物体的位移?
    发表于 07-23 10:36

    源码交流=图像处理 识别圆形物体

    本帖最后由 乂统天下 于 2020-4-20 12:59 编辑 新手学习,多多关照,互相交流,共同进步^-^【实现功能】识别图像中的圆形物体[Tested]【处理效果】NO.1:原图NO.2
    发表于 04-02 10:43

    光照变化情况下的静态头部姿态估计

    针对图像光照的变化对静态头部姿态估计的影响,该文提出一种基于有向梯度直方图和主成分分析的姿态特征,并利用SVM分类器进行分类。该算法分别在C
    发表于 04-22 09:34 28次下载

    不同类别的电池是如何回收的?

    不同类别的电池是如何回收的? 电池为我们的汽车、可移动电子设备及每天使用的物体提供电力。我们甚至可以用植物来制造电池。在这个越来越机动化的世界上,电
    发表于 11-04 16:22 802次阅读

    基于RGB-D图像物体识别方法

    针对传统的颜色一深度(RGB-D)图像物体别的方法所存在的图像特征学习不全面、特征编码鲁棒性不够等问题,提出了基于核描述子局部约束线性编码
    发表于 12-07 10:22 1次下载
    基于<b class='flag-5'>RGB</b>-D<b class='flag-5'>图像</b><b class='flag-5'>物体</b>识别方法

    基于深度学习的二维人体姿态估计方法

    基于深度学习的二维人体姿态估计方法通过构建特定的神经网络架构,将提取的特征信息根据相应的特征融合方法进行信息关联处理,最终获得人体姿态估计
    发表于 03-22 15:51 5次下载
    基于深度学习的二维人体<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>方法

    基于深度学习的二维人体姿态估计算法

    近年来人体姿态估计作为计算机视觉领域的热点,在视频监控、人机交互、智慧校园等领域具有广泛的应用前景。随着神经网络的快速发展,采用深度学习方法进行二维人体姿态
    发表于 04-27 16:16 7次下载
    基于深度学习的二维人体<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>算法

    基于视点与姿态估计的视频监控行人再识别

    行人再识别是视频监控中一项极具挑战性的仼务。图像中的遮挡、光照、姿态、视角等因素,会对行人再识别的准确率造成极大影响。为了提高行人再识别的准确率,提出一种融合视点机制与
    发表于 05-28 16:41 5次下载

    基于OnePose的无CAD模型的物体姿态估计

    基于CAD模型的物体姿态估计:目前最先进的物体6DoF姿态估计方法可以大致分为回归和关键点技术。
    的头像 发表于 08-10 11:42 1503次阅读

    一种基于去遮挡和移除的3D交互手姿态估计框架

    与被充分研究的单手姿态估计任务不同,交互手3D姿态估计是近两年来刚兴起的学术方向。现存的工作会直接同时预测交互手的左右两手的姿态,而我们则另
    的头像 发表于 09-14 16:30 898次阅读

    无需实例或类级别3D模型的对新颖物体的6D姿态追踪

    跟踪RGBD视频中物体的6D姿态对机器人操作很重要。然而,大多数先前的工作通常假设目标对象的CAD 模型,至少类别级别,可用于离线训练或在线测试阶段模板匹配。
    的头像 发表于 01-12 17:23 1875次阅读

    基于飞控的姿态估计算法作用及原理

      姿态估计的作用? 姿态估计是飞控算法的一个基础部分,而且十分重要。为了完成飞行器平稳的姿态控制,首先需要精准的
    发表于 11-13 11:00 894次阅读
    基于飞控的<b class='flag-5'>姿态</b><b class='flag-5'>估计</b>算法作用及原理

    图像增强三大类别介绍

    图像增强是图像模式识别中非常重要的图像预处理过程。图像增强的目的是通过对图像中的信息进行处理,使
    的头像 发表于 11-14 14:34 1362次阅读

    从单张图像中揭示全局几何信息:实现高效视觉定位的新途径

    我们提出了一种新颖的方法,它可以从单个 RGB 图像进行全局 6 自由度姿态估计。我们的方法与大多数现有的
    的头像 发表于 01-08 14:58 593次阅读
    从单张<b class='flag-5'>图像</b>中揭示全局几何信息:实现高效视觉定位的新途径