0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于覆盖分数的采样方法用于视觉定位问题

3D视觉工坊 来源:计算机视觉工坊 2023-01-04 10:09 次阅读

论文探讨了将连续学习用在视觉定位问题中,从而以增量方式在场景中训练模型。一般的将深度学习方法与视觉定位相结合,比如利用深度神经网络从输入图像直接回归相机姿态或者3D场景坐标,这些方法都假设在训练期间可以获得所有场景的静态数据分布,因为如果使用非平稳数据在视觉定位的深度网络中会导致灾难性遗忘,为了解决这个问题,论文提出了一种基于从固定缓冲区存储和回放图像的强基线,此外提出了一种新的基于覆盖分数的采样方法(Buff-CS),该方法将缓冲过程中的现有采样策略用于视觉定位问题,实验结果表明,在具有挑战性的数据集(7Scenes、12 Scenes、19 Scenes)上,通过结合前一场景,标准缓冲方法得到了改进。

为什么使用连续学习,它与一般的深度学习联合训练所有场景数据有何不同?连续学习是不断从传入的数据流中学习,在这种设置下,所有场景是依次遇到的,如图1所示。

cd272b38-88d5-11ed-bfe3-dac502259ad0.png

与对所有任务进行联合训练相比,以连续方式学习任务在样本和记忆效率方面有几个好处: 1)在联合训练环境中,每次场景发生变化时模型都需要在数据库中的所有场景上进行重新训练,即使是没有发生任何变化的场景。向数据库中添加新场景还需要模型重新训练,这会影响可伸缩性,需要将完整的数据集存储在内存中。 2)连续学习旨在通过仅在改变或新场景和存储在小缓冲区中的先前场景的图像上微调模型来降低计算成本,由于仅需要将当前场景的数据与来自先前场景的图像的小缓冲区一起存储在存储器中,因此也降低了存储器成本。这对于存储容量受设备限制的移动应用程序更友好。Contributions:1)介绍了视觉定位背景下的连续学习问题。 2)在多个室内数据集上,利用现有的基于缓冲方法创建了一个经验回放基线。 3)根据场景的3D几何结构提出一种新的缓冲策略.连续学习:

cd438904-88d5-11ed-bfe3-dac502259ad0.png

Buffering:为了防止在训练时发生灾难性遗忘,少量先前的数据存储在固定大小为B的缓冲区中。当前任务或类的输入图像和相应的标签存储在缓冲区中,将这个在缓冲区中存储图像的过程称为Img-buff,除了图像之外还存储了提供更好的流形结构的中间表示,例如存储预softmax层逻辑提供了类概率的分布,该类概率对类间语义关系进行编码。缓冲区存储中间表示为Rep-buff。Replay:回放是在学习当前任务的同时对缓冲区中存储的过去场景的样本进行重新迭代的过程。当前任务样本和缓冲区B中的任务样本的最终损失计算如下:

cd5aac42-88d5-11ed-bfe3-dac502259ad0.png

存储在B中的中间表示可以通过知识蒸馏的过程用作伪标签。例如来自当前网络状态的逻辑被约束为与存储在缓冲存储器B中的相应逻辑相似

cd74a9ee-88d5-11ed-bfe3-dac502259ad0.png

缓冲算法:缓冲算法决定当前任务中的哪些样本将被存储以供将来回放以及缓冲区中存储的哪些样本要被替换,算法有两个阶段,第一阶段包括填充缓冲区,直到其充满,然后第二阶段决定额外传入实例的缓冲概率。将连续学习用在视觉定位:本文基于之前提出的一种基于学习的方法,HSC-Net,其在一组参数化的分层网络层中保持场景的隐式表示,这些分层网络层预测每个2D像素位置的3D场景坐标,然后使用PnP,2D-3D对应关系用于获得最终查询相机姿态估计。在连续学习设置中,场景按顺序呈现,对于Img buff,仅将输入图像和相应的3D场景坐标y存储在B中,此外Rep buff存储了中间聚类级别预测(此为HSCNet中的东西),与分类问题不同,视觉定位在场景或类上是多样的,并且是独立的,在特定子场景的图像上学习定位不会使场景的其他部分通用化,为了在给定场景的所有子场景上保持定位性能,缓冲区需要保持最大化场景覆盖率的图像,此论文提出了一种方法去采样图像从而提供更好的场景覆盖率,称为Buff-CS,即如果与缓冲图像观察到的实例相比,传入的新实例提供了新的场景观察,则将缓冲概率增加到1,

cd85120c-88d5-11ed-bfe3-dac502259ad0.png

实验:数据集为7Scenes、12Scenes,为了以顺序的方式评估连续学习方法,论文将单独的七个场景和十二个场景集成到单个坐标系。 采用了两种缓冲方法作为基线,即Reservoir和Class-balance。Reservoir旨在从未知大小的输入流中采样k个数据实例,其中k是预定义的样本大小,这种方法保证了单个帧被选择到缓冲区的概率相同。Class-balance旨在进一步解决在连续学习中的类不平衡问题。此方法使类尽可能保持平衡,同时保留每个类/场景的分布。 在视觉定位的连续学习任务中,单个场景以增量方式被馈送到训练网络,也就是说第一场景中的数据被训练以估计场景坐标,然后训练权重被用作第二场景的初始化,为了在连续学习设置中训练HSCNet,在相应场景的训练完成后,对每个场景的训练数据进行采样并存储在缓冲器中,如前所述,仅缓冲输入图像和相应标签被称为Img-buff,另外缓冲中间表示被称为Rep-buff,对于Img-buff将RGB图像、深度图和地面真实姿态存储到缓冲区。对于Rep-buff还存储了预softmax层逻辑和预测的场景坐标。 表1报告了训练完成后在所有场景上平均的姿势准确度和覆盖得分方面的表现

cd9fb6d4-88d5-11ed-bfe3-dac502259ad0.png

cdc33406-88d5-11ed-bfe3-dac502259ad0.png

表3中的平均精度评估了三种方法在完成新任务后对先前任务的性能。表3显示了平均精度

cddec7b6-88d5-11ed-bfe3-dac502259ad0.png

总结:在多个室内定位数据集上对所提出的方法进行了评估,这些数据集在不同设置下相对于基线表现出更好的或有竞争力的性能。 论文实验部分可以说是论文的亮点,有时间还是去读一下论文实验部分,其有更好的分析。

审核八年级:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4774

    浏览量

    100899
  • 深度学习
    +关注

    关注

    73

    文章

    5508

    浏览量

    121295

原文标题:把连续学习的思路用在基于图像的相机定位问题中( ICCV 2021)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    视觉定位在焊接机器人中的作用

    随着制造业对精度、效率和自动化程度的要求不断提高,焊接机器人在现代工业生产中扮演着越来越重要的角色,广泛应用于汽车制造、工程机械、家电等多个行业。而视觉定位技术作为焊接机器人不可或缺的关键组成部分
    的头像 发表于 01-06 16:05 61次阅读
    <b class='flag-5'>视觉</b><b class='flag-5'>定位</b>在焊接机器人中的作用

    激光锡焊视觉定位技术的应用场景

    本文主要介绍视觉定位概念、一种基于视觉定位的激光焊接系统的结构和组成,及该焊接系统在某些特定场景的具体应用。
    的头像 发表于 12-13 09:10 165次阅读
    激光锡焊<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>技术的应用场景

    用于机器视觉应用的智能机器视觉控制平台

    看51camera的合作伙伴Neousys宸曜科技的Nuvis系列工控机。Nuvis系列机器视觉控制平台是适用于现如今机器视觉市场的高整合机器视觉解决方案。Nuvis系列
    的头像 发表于 11-23 01:08 215次阅读
    适<b class='flag-5'>用于</b>机器<b class='flag-5'>视觉</b>应用的智能机器<b class='flag-5'>视觉</b>控制平台

    SegVG视觉定位方法的各个组件

    视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系 统的普及,如视觉问答和图像描述,
    的头像 发表于 10-28 13:59 475次阅读
    SegVG<b class='flag-5'>视觉</b><b class='flag-5'>定位</b><b class='flag-5'>方法</b>的各个组件

    一种将NeRFs应用于视觉定位任务的新方法

    视觉定位旨在估计在已知环境中捕获的给定图像的旋转和位置,大致可以分为绝对姿态回归(APR),场景坐标回归(SCR)和分层方法(HM)。
    的头像 发表于 10-28 10:03 234次阅读
    一种将NeRFs应<b class='flag-5'>用于</b><b class='flag-5'>视觉</b><b class='flag-5'>定位</b>任务的新<b class='flag-5'>方法</b>

    用于AIC111的高效重采样滤波器

    电子发烧友网站提供《用于AIC111的高效重采样滤波器.pdf》资料免费下载
    发表于 10-23 10:13 0次下载
    <b class='flag-5'>用于</b>AIC111的高效重<b class='flag-5'>采样</b>滤波器

    TDA4VM的有效视觉定位

    电子发烧友网站提供《TDA4VM的有效视觉定位.pdf》资料免费下载
    发表于 09-24 11:38 1次下载
    TDA4VM的有效<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>

    ​电视机壳机器视觉定位贴合组装软硬件方案

    电视机壳机器视觉定位贴合组装 先对机壳及薄片进行定位,然后两者组装贴合
    的头像 发表于 06-21 01:05 392次阅读
    ​电视机壳机器<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>贴合组装软硬件方案

    为什么UWB定位技术适用于室内定位

    定位、WIFI定位、RFID定位、UWB定位主要用于室内定位。UWB
    的头像 发表于 06-19 17:10 726次阅读
    为什么UWB<b class='flag-5'>定位</b>技术适<b class='flag-5'>用于</b>室内<b class='flag-5'>定位</b>?

    OLED屏幕、包装外壳机器视觉定位软硬件方案

    OLED屏幕、包装外壳视觉定位检测
    的头像 发表于 06-17 10:22 297次阅读
    OLED屏幕、包装外壳机器<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>软硬件方案

    手机屏幕点胶区域机器视觉定位系统软硬件方案

    通过机器视觉系统点胶之前需要定位产品,找寻效果较明显的边缘位置
    的头像 发表于 06-17 00:19 593次阅读
    手机屏幕点胶区域机器<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>系统软硬件方案

    激光焊接视觉定位引导方法

    激光焊接是一种高效、精确的焊接技术,广泛应用于汽车制造、航空航天、电子产品等领域。随着工业自动化和智能化的发展,激光焊接的精度和效率需求日益增加。在此背景下,视觉定位引导技术成为提升激光焊接质量
    的头像 发表于 05-28 10:34 540次阅读
    激光焊接<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>引导<b class='flag-5'>方法</b>

    手机显示屏二维码读取,产品视觉定位,外观检测应用软硬件配置方案

    手机显示屏二维码读取,产品视觉定位,外观视觉检测应用等
    的头像 发表于 05-20 00:31 394次阅读
    手机显示屏二维码读取,产品<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>,外观检测应用软硬件配置方案

    用STM8做一个用于抽取频谱的东西, 如何采样128个点用于FFT数据计算?

    各位前辈和大侠们: 想用STM8做一个用于抽取频谱的东西, 采用128点的FFT运算, 采样率为16K, 这里就需要一次采样128个点用于FFT数据计算. 该如何
    发表于 05-16 08:10

    UWB定位技术与GPS定位区别及应用

    GPS定位技术是一种基于卫星定位系统的全球定位技术,其主要优势在于可以覆盖全球范围,并且能够提供相对较为精确的定位信息,一般达到米级或十米级
    的头像 发表于 04-24 16:52 1985次阅读
    UWB<b class='flag-5'>定位</b>技术与GPS<b class='flag-5'>定位</b>区别及应用