0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask

DPVg_AI_era 来源:lp 2019-04-08 12:00 次阅读

FAIR何恺明、Ross等人最新提出实例分割的通用框架TensorMask,首次在定性和定量上都接近于 Mask R-CNN 框架,为探索密集实例分割方法提供基础。

现代实例分割方法主要是先检测对象边界框,然后进行裁剪和分割,Mask R-CNN是目前这类方法中最优秀的。

近日,来自FAIR的陈鑫磊、Ross Girshick、何恺明、Piotr Dollar等人发表一篇新论文“TensorMask: A Foundation for Dense Object Segmentation”,从一个新的方向解决实例分割问题,并提出了一个名为TensorMask的通用框架。

论文地址:

https://arxiv.org/pdf/1903.12174.pdf

作者表示,TensorMask达到了与Mask R-CNN相当的结果,有助于更全面地理解这项任务。

Ross Girshick、何恺明、Piotr Dollar三人也是Mask R-CNN的作者,一作陈鑫磊博士毕业于CMU,导师是Tom Mitchell教授,并曾在谷歌云AI李飞飞、李佳的指导下实习。

TensorMask:将实例分割视为4D张量预测

在密集、规则的网格上生成边界框对象预测的滑动窗口目标检测器(sliding-window object detectors)已经得到迅速发展,并得到了广泛的应用。

与此相反,现代的实例分割方法主要是先检测对象边界框,然后进行裁剪和分割,Mask R-CNN推广了这种方法。

在这项工作中,我们研究了密集滑动窗口实例分割(dense sliding-window instance segmentation)的范例,令人惊讶的是,这方面的研究十分不足。

我们的核心发现是,这项任务与其他的密集预测任务(如语义分割或边界框对象检测)有本质的不同,因为每个空间位置的输出本身就是一个几何结构,具有自己的空间维度。

为了形式化地说明这一点,我们将密集实例分割视为一个4D张量(4D tensors)的预测任务,并提出了一个名为TensorMask的通用框架,该框架显式地捕获这种几何图形,并支持对4D tensors使用新的操作符。

图1:TensorMask的输出。我们将密集实例分割作为一种基于结构化4D张量的预测任务。除了获得具有竞争力的定量结果,TensorMask还获得了定性上合理的结果。图中小的和大的物体都被很好地描绘出来,并且,重叠的物体也被正确地处理了。

我们证明了tensor这种想法可以相比baseline获得较大的增益,并且可以得到与Mask R-CNN相当的结果。这些结果表明,TensorMask可以作为密集掩码预测的新进展的基础,有助于更全面地理解这项任务。我们将发布本研究的代码。

弥补差距:实例分割中的密集方法

滑动窗口(sliding-window)范例——通过查看放置在一组密集图像位置上的每个窗口来查找对象——是计算机视觉中最早、也是最成功的概念之一,并且这个概念自然地与卷及网络相关。

然而,尽管目前性能最好的对象检测器依赖于滑动窗口预测来生成初始候选区域,但获得更准确的预测主要来自对这些候选区域进行细化的阶段,如Faster R-CNN和Mask R-CNN,分别用于边界框目标检测和实例分割。这类方法已经主导了COCO目标检测挑战赛。

近年来,诸如SSD和RetinaNet之类的边界框目标检测器,避开了“细化”这个步骤,专注于直接的滑动窗口预测,已经有了复苏的趋势,并显示出有希望的结果。

相比之下,该领域在密集滑动窗口实例分割方面并没有取得同等的进展;对于mask prediction,没有类似于SSD / RetinaNet这样的直接、密集的方法。

为什么密集的方法在边界框检测方面进展迅速,而在实例分割方面却完全缺失?这是一个基本科学上的问题。这项工作的目标就是弥补这一差距,并为探索密集实例分割方法提供基础。

我们的主要观点是,定义dense mask representations的核心概念,以及这些概念在神经网络中的有效实现,都是缺乏的。

与边界框不同,边界框具有固定的低维表示而不考虑比例,分割掩码(segmentation masks)可以从更丰富、更结构化的表示中获益。例如,每个mask本身是一个2D空间映射,较大对象的mask可以受益于较大空间映射的使用。为dense masks开发有效的表示是实现密集实例分割的关键步骤。

为了解决这个问题,我们定义了一组用高维张量表示mask的核心概念,这些概念允许探索用于dense mask prediction的新颖网络架构。为了证明所提出的表示的优点,我们提出了几个这样的网络并进行了实验。

我们的框架称为TensorMask,它建立了第一个密集滑动窗口实例分割系统,其结果接近于Mask R-CNN。

左:自然表示。右:对齐表示(Aligned representation)。

TensorMask表示的核心想法是使用结构化的4D tensors表示空间域上的mask。

与以前的面向通道的方法不同,我们建议利用形状(V, U, H, W)的4D tensors,其中(H, W)表示目标位置,(V, U)表示对应的mask的位置,它们都是几何子张量,也就是说,它们的轴有明确定义的units和关于图像的几何意义。

这种从非结构化通道轴上的encoding masks到使用结构化几何子张量的视角转变,使得定义新的操作和网络架构成为可能。这些网络可以以几何上有意义的方式直接作用于(V, U)子张量,包括坐标变换、up-/downscaling和金字塔的使用。

在TensorMask框架的支持下,我们在一个4D tensors的标度索引列表上建立了一个金字塔结构,我们称之为张量双金字塔( tensor bipyramid)。与特征金字塔类似,tensor bipyramid是一个多尺度特征映射列表,它包含一个形状为2kV、2ku、12kh、12kw的4D张量列表,其中k≥0个索引尺度。这种结构在(H, W)和(V, U)几何子张量上都呈金字塔形状,但方向相反。这种设计捕捉了大对象具有粗糙空间定位的高分辨率mask(大k)和小对象具有精细空间定位的低分辨率mask(小k)的理想特性。

feature pyramid和tensor bipyramid的比较

我们将这些组件组合成一个网络骨干和训练程序,类似RetinaNet,其中我们的dense mask predictor扩展了原始的密集边界框预测器。

通过详细的消融实验,我们评估了TensorMask框架的有效性,并证明了明确捕捉该任务的几何结构的重要性。最后,我们展示了TensorMask与对应的Mask R-CNN产生了相似的结果(见图1和图2)。

TensorMask的架构

TensorMask框架的核心思想是使用结构化的高维张量来表示一组密集滑动窗口中的图像内容(例如masks)。

图2:使用ResNet-101-FPN骨干的TensorMask和Mask R-CNN的示例结果(与图6中使用的Mask R-CNN的图像相同)。结果在定量和质量上都很相似,表明密集滑动窗口范式确实可以有效地用于实例分割任务。请读者猜猜哪些结果是TensorMask生成的(答案见文末)。

TensorMask架构

我们已经展示了采用TensorMask representations的模型。这些模型有一个在滑动窗口中生成masks的mask prediction head,以及一个用于预测对象类别的classification head,类似于滑动窗口目标检测器中的box regression和classification heads。

实验和结果

我们报告了COCO实例分割的结果。所有的模型都在~118k train2017图像上进行训练,并在5k val2017图像上进行测试。最终结果在test-dev上。我们使用COCO mask的平均精度(用AP表示)。box AP用APbb表示。

TensorMask表示

首先,我们研究了使用V =U=15和ResNet-50-FPN骨干的mask的各种张量表示。表2报告了定量结果,图2和图9显示了定性比较。

表2

与Mask R-CNN的比较

表3总结了test-dev上最好的TensorMask模型,并将其与当前用于COCO实例分割的主流方法Mask RCNN进行了比较。

表3

如上表所示,最好的TensorMask在test-dev上达到了35.5 mask AP,接近于mask R-CNN的36.8。

在ResNet-101中,TensorMask实现了37.3 mask AP,与mask R-CNN相比只有1.0 AP差距。

这些结果表明,密集滑动窗口方法可以缩小与“先检测后分割”方法的差距。定性结果如图2、10、11所示。

结论

TensorMask是一个dense sliding-window实例分割框架,首次在定性和定量上都接近于Mask R-CNN框架。TensorMask为实例分割研究建立了一个概念互补的方向。

(图2答案:第一行是Mask R-CNN的结果,第二行是TensorMask的结果。)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    863

    浏览量

    47678
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100719
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268892

原文标题:何恺明等最新论文:实例分割全新方法TensorMask,效果比肩 Mask R-CNN

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于暗原色先验的单幅图像去雾算法

    这是去雾算法的翻译版,个人翻译,原汁原味,简单易懂。
    发表于 11-19 15:05 10次下载

    图像分割基础算法及实现实例

    图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的
    发表于 12-18 18:19 9381次阅读
    图像<b class='flag-5'>分割</b>基础算法及实现<b class='flag-5'>实例</b>

    Ross Girshick等大神深夜扔出“炸弹”:ImageNet预训练并非必须

    ImageNet预训练方式加快了收敛速度,特别是在训练早期,但随机初始化训练可以在训练一段时间后赶上来。考虑到前者还要进行模型的微调,训练总时间二者大体相当。由于在研究目标任务时经常忽略ImageNet预训练的成本,因此采用短期训练进行的“对照”比较可能会掩盖随机初始化训练的真实表现。
    的头像 发表于 11-24 10:09 6674次阅读

    FAIR团队最新论文提出“全景FPN”,聚焦于图像的全景分割任务

    特征金字塔网络(Feature Pyramid Network):首先简要回顾一下FPN。FPN采用一个具有多空间分辨率特征的标准网络(如ResNet),并添加一个具有横向连接的自上而下的通道,如图1a所示。自上而下的路径从网络的最深层开始,并逐步向上采样,同时添加自底向上路径的高分辨率特性的转换版本。FPN生成一个金字塔,通常具有1/32到1/4的分辨率,其中每个金字塔级别具有相同的通道维度(默认是256)。
    的头像 发表于 01-11 08:57 6178次阅读

    李飞飞等人提出Auto-DeepLab:自动搜索图像语义分割架构

    简单地移植图像分类的方法不足以进行语义分割。在图像分类中,NAS 通常使用从低分辨率图像到高分辨率图像的迁移学习 [92],而语义分割的最佳架构必须在高分辨率图像上运行。这表明,本研究需要:(1
    的头像 发表于 01-15 13:51 3763次阅读

    等人再出重磅新作:分割任务的TensorMask框架

    ResNet50。因此,论文提出了多个基础(baseline)分支和张量尺度金字塔分支,帮助使用者快速上手 TensorMask。需要指出的是,张量尺度金字塔分支是最有效的一个模型。在训练时,作者采用 DeepMask 来帮助标记数据,以及 focal loss 等等。
    的头像 发表于 04-04 17:21 3960次阅读

    FAIR团队近日发表神经结构搜索NAS方面的最新力作

    在这一趋势的推进中,神经结构搜索 (neural architecture search, NAS) 已经成为联合搜索连接模式和执行操作方式的一个有前景的方向。NAS 方法专注于搜索,同时隐式地依赖于一个重要但常常被忽视的组件 —— 网络生成器 (network generator)。
    的头像 发表于 04-19 14:34 3789次阅读
    <b class='flag-5'>FAIR</b><b class='flag-5'>何</b><b class='flag-5'>恺</b><b class='flag-5'>明</b>团队近日发表神经结构搜索NAS方面的最新力作

    Facebook AI使用单一神经网络架构来同时完成实例分割和语义分割

    这一新架构“全景 FPN ”在 Facebook 2017 年发布的 Mask R-CNN 的基础上添加了一个用于语义分割的分支。这一新架构可以同时对图像进行实例和语义分割,而且精确度与只进行
    的头像 发表于 04-22 11:46 2882次阅读
    Facebook AI使用单一神经网络架构来同时完成<b class='flag-5'>实例</b><b class='flag-5'>分割</b>和语义<b class='flag-5'>分割</b>

    什么是图像实例分割?常见的图像实例分割有哪几种?

    图像实例分割是在对象检测的基础上进一步细化,分离对象的前景与背景,实现像素级别的对象分离。
    的头像 发表于 06-17 11:15 2.6w次阅读
    什么是图像<b class='flag-5'>实例</b><b class='flag-5'>分割</b>?常见的图像<b class='flag-5'>实例</b><b class='flag-5'>分割</b>有哪几种?

    深度学习部分监督的实例分割环境

    实例分割的任务是将图像中的像素分组为单个事物的实例,并用类标签(可计数的对象,如人、动物、汽车等,并为每个对象分配独特的标识符,如 car_1 和 car_2)来标识这些事物。实例
    的头像 发表于 10-21 14:05 1826次阅读

    用于实例分割的Mask R-CNN框架

    是应用于每个 RoI 的小型 FCN,以像素到像素的方式预测分割掩码。鉴于 Faster R-CNN 框架,Mask R-CNN 易于实现和训练,这有助于广泛的灵活架构设计。此外,掩码分支仅增加了少量
    的头像 发表于 04-13 10:40 2630次阅读

    基于X光图片的实例分割垃圾数据集WIXRay (Waste Item X- Ray)

    提出了第一个基于 X 光图片的、实例级别的垃圾分割数据集 (WIXRay)。数据集中包含 5,038 张 X 光图片,共 30,845 个垃圾物品实例。对于每个
    的头像 发表于 08-08 10:58 1696次阅读

    用于弱监督大规模点云语义分割的混合对比正则化框架

    为了解决大规模点云语义分割中的巨大标记成本,我们提出了一种新的弱监督环境下的混合对比正则化(HybridCR)框架,该框架与全监督的框架相比
    的头像 发表于 09-05 14:38 1348次阅读

    基于通用的模型PADing解决三大分割任务

    数据需要消耗巨大的时间以及人力成本。为处理上述难题,零样本学习(Zero-Shot Learning,ZSL)被提出用于分类没有训练样本的新对象,并扩展到分割任务中,例如零样本语义分割(Zero-Shot Semantic Se
    的头像 发表于 06-26 10:39 539次阅读
    基于<b class='flag-5'>通用</b>的模型PADing解决三大<b class='flag-5'>分割</b>任务

    基于SAM实现自动分割遥感图像实例

    本篇文章为大家介绍RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model (基于视觉基础模型的遥感实例分割提示学习),
    的头像 发表于 07-06 09:08 1835次阅读
    基于SAM实现自动<b class='flag-5'>分割</b>遥感图像<b class='flag-5'>实例</b>