0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MaX-DeepLab:双路径Transformer架构概览

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-05-31 11:07 次阅读

全景分割是一个计算机视觉任务,会将语义分割(为每个像素分配类标签)和实例分割(检测和分割每个对象实例)合并。作为实际应用中的核心任务,全景分割通常使用多个代理 (Surrogate) 子任务(如使用边界框检测方法)粗略估计全景分割目标,来实现预测一组不相重叠的遮罩 (mask) 及其相对应的类别标签(例如对象所属的类别,如“汽车”、“交通指示灯”、“道路”等)。

在此代理树中,每个子任务都会产生额外的手动设计模块,如锚点设计规则、边界框分配规则、非极大值抑制 (NMS)、thing-stuff(thing 类物体和 stuff 类物体)合并,等等。虽然对于单个子任务和模块,不乏一些出色的解决方案,但当我们将这些子任务整合到一个流水线中进行全景分割时,就会产生不需要的构件,在一些比较棘手的情况下更是如此(例如,两个具有相似边界框的人都触发 NMS,从而导致其中一个遮罩缺失)。

以往提出的 DETR 方法简化边界框检测子任务成端到端操作来解决其中一些问题,事实证明,这种做法的计算效率更高,产生的无关构件也更少。然而,训练过程在很大程度上仍然依赖边界框检测,这显然与基于遮罩的全景分割定义不相符。另一种做法是将边界框从管线中彻底移除,这样做的好处是消除了整个子任务及其相关模块和构件。例如,Axial-DeepLab预测预定义实例中心的像素偏移量时,如果图像平面中有各种各样的形状,或相邻对象的中心点较为接近,例如下面这张狗狗坐在椅子上的图像,那它所使用的子任务则会遇到对象严重变形的挑战。

当狗狗的中心和椅子的中心接近重合时,Axial-DeepLab 就会将它们合并成一个对象

在《MaX-DeepLab:利用遮罩 Transformer 实现端到端全景分割 (MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers)》(将提交给 CVPR 2021 大会)一文中,我们首次为全景分割管线提出了完全的端到端方法——将 Transformer架构扩展到此计算机视觉任务中,直接预测具有类标签的遮罩。这种方法叫做 MaX-DeepLab,利用 Mask Xformer 对 Axial-DeepLab 进行扩展。该方法采用双路径架构,引入了全局内存路径,允许与任何卷积层直接通信。MaX-DeepLab 最终在极具挑战的COCO数据集上以及无边界框的状态下实现了 7.1% 的显著全景质量 (PQ) 增益,首次消除了有边界框方法和无边界框方法之间的差距。在不增加测试时长的情况下,就 PQ 方面而言,MaX-DeepLab 在 COCO 测试开发集上达到了 51.3% 的水平,这已是目前的最高水准。

MaX-DeepLab 是完全端到端的:直接从图像中预测全景分割遮罩

端到端全景分割

受 DETR 启发,我们的模型使用经过 PQ 类目标优化的输出遮罩和类,直接预测一组不相重叠的遮罩及其相应的语义标签。具体来说,我们受到评估指标 PQ 的定义:识别质量(预测的类是否正确)乘以分割质量(预测的遮罩是否正确)的启发,以一模一样的方式在两个具有类标签的遮罩之间定义了一个相似度指标。直接通过一对一匹配,最大化实际遮罩和预测遮罩之间的这种相似度,直接对模型进行训练。这种对全景分割的直接建模使端到端训练和推理成为可能,消除了现有的有边界框方法和无边界框方法必须手工设计先验的弊端。

与卷积神经网络 (CNN) 上堆叠传统 Transformer 的方案不同,我们提出了一种结合 CNN 与 Transformer 的双路径框架。具体而言,我们通过一个双路径 Transformer 元件,使 CNN 层能够从全局内存中读写数据。这里所说的这个元件采用了 CNN 路径和内存路径之间的所有四种注意力 (Attention) 类型,可以插入到 CNN 中的任意位置,从而允许在任何层与全局内存通信。MaX-DeepLab 还利用堆叠的沙漏式解码器,可将多种尺度特征聚合成高分辨率输出。然后系统会将该输出与全局内存特征相乘,形成遮罩组预测。至于遮罩类别,则使用另一种 Transformer 进行预测。

双路径 Transformer 架构概览

结果

我们在极具挑战性的 COCO 全景分割数据集上,分别使用先进的无边界框方法 (Axial-DeepLab) 和有边界框方法 (DetectoRS) 对 MaX-DeepLab 进行了评估。在不增加测试时长的情况下,就 PQ 方面而言,MaX-DeepLab 在 COCO 测试开发集上达到了 51.3% 的水平,这已是目前的最高水准。

在无边界框状态下,就 PQ 方面而言,这一结果比 Axial-DeepLab 高出 7.1%,比 DetectoRS 高出 1.7%,第一次消除了有边界框方法和无边界框方法之间的差距。为了与 DETR 进行一致的比较,我们还评估了与 DETR 参数数量和算力均一致的轻量级 MaX-DeepLab 版本。就 PQ 方面而言,此轻量级 MaX-DeepLab 在 val 集上的表现优于 DETR 3.3%,在测试开发集上的表现优于 DETR 3.0%。此外,我们还对端到端表达式、模型伸缩、双路径架构和损失函数进行了广泛的消融研究和分析。此外,MaX-DeepLab 也不像 DETR 一样需要超长训练计划。

MaX-DeepLab 正确地分割了一只坐在椅子上的狗。Axial-DeepLab依赖于回归对象中心偏移量的代理任务。它之所以失败,是因为狗和椅子的中心太过于接近。作为代理任务,DetectoRS 会将对象的边界框而非遮罩进行分类。由于椅子的边界框置信度较低,所以就被滤除了。

关于 MaX-DeepLab 和先进的无边界框及有边界框方法的案例研究

还有一个例子可以证明 MaX-DeepLab 可以在充满挑战的条件下正确分割图像。

MaX-DeepLab 正确分割了相互重叠的斑马。此例对于其他方法也非常具有挑战性,因为这两只斑马的边界框很相似,对象的中心也很接近

结论

我们首次证明了全景分割可以进行端到端训练。MaX-DeepLab 使用遮罩 Transformer 直接预测遮罩和类,消除了手工设计对于经验的依赖,如对象边界框、thing-stuff(thing 类物体和 stuff 类物体)合并等。借助 PQ 式损失函数和双路径 Transformer,MaX-DeepLab 在极具挑战性的 COCO 数据集上取得了最高水准的结果,消除了有边界框方法和无边界框方法之间的差距。

原文标题:MaX-DeepLab:用于端到端全景分割的双路径 Transformer

文章出处:【微信公众号:TensorFlow】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    45989
  • tensorflow
    +关注

    关注

    13

    文章

    329

    浏览量

    60532

原文标题:MaX-DeepLab:用于端到端全景分割的双路径 Transformer

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Transformer是机器人技术的基础吗

    生成式预训练Transformer(GPT)被吹捧为将彻底改变机器人技术。但实际应用中,GPT需要庞大且昂贵的计算资源、冗长的训练时间以及(通常)非机载无线控制,诸多限制之下,GPT技术真的
    的头像 发表于 12-05 10:54 230次阅读
    <b class='flag-5'>Transformer</b>是机器人技术的基础吗

    Transformer模型的具体应用

    如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer
    的头像 发表于 11-20 09:28 422次阅读
    <b class='flag-5'>Transformer</b>模型的具体应用

    Transformer模型能够做什么

    尽管名为 Transformer,但它们不是电视银幕上的变形金刚,也不是电线杆上垃圾桶大小的变压器。
    的头像 发表于 11-20 09:27 301次阅读
    <b class='flag-5'>Transformer</b>模型能够做什么

    英伟达推出归一化Transformer,革命性提升LLM训练速度

    英伟达团队近日在AI领域投下了一枚震撼弹,他们提出了一种全新的神经网络架构——归一化Transformer(nGPT)。这一创新架构基于超球面(hypersphere)进行表示学习,为AI领域带来
    的头像 发表于 10-23 11:30 376次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    、GPU、NPU,给我们剖析了算力芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解算力芯片。 全书共11章,由浅入深,较系统全面进行讲解。下面目录对全书内容有一个整体了解
    发表于 10-15 22:08

    Transformer能代替图神经网络吗

    Transformer作为一种在处理序列数据方面表现出色的深度学习模型,自其提出以来,已经在自然语言处理(NLP)、时间序列分析等领域取得了显著的成果。然而,关于Transformer是否能完全代替图神经网络(GNN)的问题,需要从多个维度进行深入探讨。
    的头像 发表于 07-12 14:07 452次阅读

    Transformer语言模型简介与实现过程

    在自然语言处理(NLP)领域,Transformer模型以其卓越的性能和广泛的应用前景,成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出,并首次应用于神经机器翻译
    的头像 发表于 07-10 11:48 1668次阅读

    Transformer架构在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构
    的头像 发表于 07-09 11:42 773次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型,包括模型的结构、训练过程、关键组件以及实现细节。
    的头像 发表于 07-02 11:41 1620次阅读

    Transformer 能代替图神经网络吗?

    Transformer模型发布时,它彻底革新了机器翻译领域。虽然最初是为特定任务设计的,但这种革命性的架构显示出它可以轻松适应不同的任务。随后成为了Transformer一个标准,甚至用于它最
    的头像 发表于 07-02 08:27 355次阅读
    <b class='flag-5'>Transformer</b> 能代替图神经网络吗?

    基于xLSTM和Transformer的模型评估:xLSTM在“语言能力”的表现

    近期,Hochreiter在arXiv平台发表论文,推出了一款新型的XLSTM(扩展LSTM)架构,有效克服了传统LSTM互联网结构“仅能按时间顺序处理信息”的局限性,有望挑战当前热门的Transformer架构
    的头像 发表于 05-13 10:31 797次阅读

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 651次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    PSoC架构核都可以访问全部外设吗?

    你好!如标题:PSoC 架构中两个内核对芯片的全部外设都有直接访问能力嘛?如果都可以直接访问,那IPC模块的主要应用场景是哪些呢?
    发表于 02-02 11:44

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 829次阅读
    基于<b class='flag-5'>Transformer</b>的多模态BEV融合方案

    电源路径的基本概念

    电源路径是指电流从电源到负载的传输路径。在电路中,电源是提供电能的设备,而负载则是消耗电能的设备。电源路径的稳定性和效率对电路的性能和可靠性有着重要的影响。本文将介绍电源路径的基本概念
    的头像 发表于 01-18 15:39 823次阅读
    电源<b class='flag-5'>路径</b>的基本概念