0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种使用Mask Transformer进行全景分割的端到端解决方案

OpenCV学堂 来源:新智元 作者:新智元 2022-07-28 10:13 次阅读

【导读】近日,谷歌团队推出了一项新Transformer,可用于优化全景分割方案,还登上了CVPR 2022。

最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。

全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩展。

该解决方案采用像素路径(由卷积神经网络或视觉Transformer组成)提取像素特征,内存路径(由Transformer解码器模块组成)提取内存特征,以及双路径Transformer用于像素特征和内存之间的交互特征。

然而,利用交叉注意力的双路径Transformer最初是为语言任务设计的,它的输入序列由几百个单词构成。

而对视觉任务尤其是分割问题来说,其输入序列由数万个像素组成,这不仅表明输入规模的幅度要大得多,而且与语言单词相比也代表了较低级别的嵌入。

全景分割是一个计算机视觉问题,它是现在许多应用程序的核心任务。

它分为语义分割和实例分割两部分。

语义分割就比如为图像中的每个像素分配语义标签,例如「人」和「天空」。

而实例分割仅识别和分割图中的可数对象,如「行人」和「汽车」,并进一步将其划分为几个子任务。

每个子任务单独处理,并应用额外的模块来合并每个子任务阶段的结果。

这个过程不仅复杂,而且在处理子任务和整合不同子任务结果时还会引入许多人工设计的先验。

332dcd92-0dbb-11ed-ba43-dac502259ad0.png

在 CVPR 2022 上发表的「CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation」中,文章提出从聚类的角度重新解读并且重新设计交叉注意力cross attention(也就是将相同语义标签的像素分在同一组),从而更好地适应视觉任务。

CMT-DeepLab 建立在先前最先进的方法 MaX-DeepLab 之上,并采用像素聚类方法来执行交叉注意,从而产生更密集和合理的注意图。

33465a56-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 进一步重新设计了交叉注意力,使其更像一个 k-means 聚类算法,对激活函数进行了简单的更改。

结构总览

研究人员将从聚类的角度进行重新解释,而不是直接将交叉注意力应用于视觉任务而不进行修改。

具体来说,他们注意到Mask Transformer 对象查询可以被认为是集群中心(旨在对具有相同语义标签的像素进行分组)。

交叉注意力的过程类似于 k-means 聚类算法,(1)将像素分配给聚类中心的迭代过程,其中可以将多个像素分配给单个聚类中心,而某些聚类中心可能没有分配的像素,以及(2)通过平均分配给同一聚类中心的像素来更新聚类中心,如果没有分配像素,则不会更新聚类中心)。

33569146-0dbb-11ed-ba43-dac502259ad0.png

在CMT-DeepLab和kMaX-DeepLab中,我们从聚类的角度重新制定了交叉注意力,其中包括迭代聚类分配和聚类更新步骤

鉴于 k-means聚类算法的流行,在CMT-DeepLab中,他们重新设计了交叉注意力,以便空间方面的softmax操作(即沿图像空间分辨率应用的 softmax 操作),实际上将聚类中心分配给相反,像素是沿集群中心应用的。

在 kMaX-DeepLab 中,我们进一步将空间方式的 softmax 简化为集群方式的 argmax(即沿集群中心应用 argmax 操作)。

他们注意到 argmax 操作与 k-means 聚类算法中使用的硬分配(即一个像素仅分配给一个簇)相同。

从聚类的角度重新构建MaskTransformer的交叉注意力,显著提高了分割性能,并简化了复杂的Masktransformer管道,使其更具可解释性。

首先,使用编码器-解码器结构从输入图像中提取像素特征。然后,使用一组聚类中心对像素进行分组,这些像素会根据聚类分配进一步更新。最后,迭代执行聚类分配和更新步骤,而最后一个分配可直接用作分割预测。

338234fe-0dbb-11ed-ba43-dac502259ad0.png

为了将典型的MaskTransformer解码器(由交叉注意力、多头自注意力和前馈网络组成)转换为上文提出的k-means交叉注意力,只需将空间方式的softmax替换为集群方式最大参数。

本次提出的 kMaX-DeepLab 的元架构由三个组件组成:像素编码器、增强像素解码器和 kMaX 解码器。

像素编码器是任何网络主干,用于提取图像特征。

增强的像素解码器包括用于增强像素特征的Transformer编码器,以及用于生成更高分辨率特征的上采样层。

一系列 kMaX 解码器将集群中心转换为 (1) Mask嵌入向量,其与像素特征相乘以生成预测Mask,以及 (2) 每个Mask的类预测。

3390e68e-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的元架构

研究结果

最后,研究小组在两个最具挑战性的全景分割数据集 COCO 和 Cityscapes 上使用全景质量 (PQ) 度量来评估 CMT-DeepLab 和 kMaX-DeepLab,并对比 MaX-DeepLab 和其他最先进的方法。

其中CMT-DeepLab 实现了显著的性能提升,而 kMaX-DeepLab 不仅简化了修改,还进一步提升了,COCO val set 上的 PQ 为 58.0%,PQ 为 68.4%,44.0% Mask平均精度(Mask AP),Cityscapes 验证集上的 83.5% 平均交集比联合(mIoU),没有测试时间增强或使用外部数据集。

33a23c36-0dbb-11ed-ba43-dac502259ad0.png

从聚类的角度设计,kMaX-DeepLab 不仅具有更高的性能,而且还可以更合理地可视化注意力图以了解其工作机制。

在下面的示例中,kMaX-DeepLab 迭代地执行聚类分配和更新,从而逐渐提高Mask质量。

33b1197c-0dbb-11ed-ba43-dac502259ad0.png

kMaX-DeepLab 的注意力图可以直接可视化为全景分割,让模型工作机制更合理

结论

本次研究展示了一种更好地设计视觉任务中的MaskTransformer的方法。

通过简单的修改,CMT-DeepLab 和 kMaX-DeepLab 重新构建了交叉注意力,使其更像一种聚类算法。

因此,所提出的模型在COCO 和 Cityscapes数据集上实现了最先进的性能。

研究团队表示,他们希望 DeepLab2 库中 kMaX-DeepLab 的开源版本有助于未来对专用于视觉Transformer架构设计的研究。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1129

    浏览量

    40656
  • 图像
    +关注

    关注

    2

    文章

    1082

    浏览量

    40391
  • 计算机视觉
    +关注

    关注

    8

    文章

    1695

    浏览量

    45914

原文标题:谷歌团队推出新Transformer,优化全景分割方案|CVPR 2022

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    智己汽车“”智驾方案推出,老司机真的会被取代吗?

    随着智能驾驶技术的发展,行业已经从早期基于简单规则和模块化逻辑的自动驾驶,逐步迈向依托深度学习的高复杂度智能驾驶解决方案,各车企也紧跟潮流,先后宣布了自己的智驾
    的头像 发表于 10-30 09:47 150次阅读
    智己汽车“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智驾<b class='flag-5'>方案</b>推出,老司机真的会被取代吗?

    Mobileye自动驾驶解决方案的深度解析

    强大的技术优势。 Mobileye的解决方案概述 1.1 什么是
    的头像 发表于 10-17 09:35 275次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶<b class='flag-5'>解决方案</b>的深度解析

    测试用例怎么写

    编写测试用例是确保软件系统从头到尾能够正常工作的关键步骤。以下是个详细的指南,介绍如何编写
    的头像 发表于 09-20 10:29 323次阅读

    恩智浦完整的Matter解决方案

    恩智浦为打造Matter设备,提供了完整的解决方案,从连接和安全解决方案到处理器和软件,应有尽有,为Matter标准的规模化商用提供有
    的头像 发表于 08-26 18:04 2472次阅读
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解决方案</b>

    实现自动驾驶,唯有

    ,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了(End-to-End, E2E)。
    的头像 发表于 08-12 09:14 560次阅读
    实现自动驾驶,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    比较器输入和输出的关系

    比较器是一种电子设备,用于比较两个电压或电流信号的大小。比较器的输入和输出之间的关系是其核心功能之。 比较器的基本原理 比较器是一种
    的头像 发表于 07-10 10:39 1716次阅读

    广汽丰田携手Momenta推出全场景智能驾驶方案

    在近日举行的广汽丰田科技开放日上,场引领未来的智能驾驶技术盛宴吸引了全球目光。广汽丰田携手国内领先的自动驾驶解决方案提供商Momenta,共同推出了
    的头像 发表于 06-29 17:36 1619次阅读

    周光:不是真“无图”,谈何

    “如果智能驾驶系统不能彻底摆脱高精度地图,谈何。”   6月1日,元戎启行CEO周光在粤港澳大湾区车展暨2024(第二届)未来汽车先行者大会上表示。   这并非周光第次强调“无
    发表于 06-03 11:06 2744次阅读
    周光:不是真“无图”,谈何<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>

    小鹏汽车发布大模型

    小鹏汽车近日宣布,其成功研发并发布了“国内首个量产上车”的大模型,该模型可直接通过传感器输入内容来控制车辆,标志着智能驾驶技术的新突破。
    的头像 发表于 05-21 15:09 645次阅读

    华为IPv6+解决方案通过信通院IPv6+ 2.0 Advanced测试评估

    近日,华为IPv6+解决方案成功通过中国信息通信研究院(以下简称“信通院”)IPv6+ 2.0 Advanced测试评估,获得业界首张企业/行业网络
    的头像 发表于 05-17 10:00 769次阅读
    华为IPv6+<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解决方案</b>通过信通院IPv6+ 2.0 Advanced测试评估

    理想汽车自动驾驶模型实现

    理想汽车在感知、跟踪、预测、决策和规划等方面都进行了模型化,最终实现了的模型。这种模型不仅完全模型化,还能够虚拟化,即在模拟环境中进行
    发表于 04-12 12:17 398次阅读
    理想汽车自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型实现

    知语云全景监测技术:现代安全防护的全面解决方案

    随着信息技术的飞速发展,网络安全问题日益突出,企业和个人对安全防护的需求也越来越迫切。在这个背景下,知语云全景监测技术应运而生,为现代安全防护提供了个全面而高效的解决方案。 知语云全景
    发表于 02-23 16:40

    移动协作机器人的RGB-D感知的处理方案

    本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的流程。该流程包括实例分割、特征匹配和点集配准。首先,利用RGB图像
    发表于 02-21 15:55 605次阅读
    移动协作机器人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>处理<b class='flag-5'>方案</b>

    康谋方案 | 基于场景的硬件在环(HiL)测试智能解决方案

    。同时,针对不同传感器进行协同工作,模拟不同的驾驶环境和交通状况,测试和验证自动驾驶车辆的算法和决策策略,从而确保其安全性和可靠性。 方案特点 针对ADAS/AD系统进行基于场景的
    的头像 发表于 01-31 17:17 696次阅读
    康谋<b class='flag-5'>方案</b> | 基于场景的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>硬件在环(HiL)测试智能<b class='flag-5'>解决方案</b>

    什么是通信?

    在嵌入式系统领域,无论是在汽车、航空航天还是工业应用中,确保关键数据安全准确地传输至关重要。为了应对这挑战,一种被称为通信的安全措施
    的头像 发表于 11-24 11:07 1323次阅读