0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语义分割模型 SegNeXt方法概述

lhl545545 来源:CVer 作者:CVer 2022-09-27 15:27 次阅读

语义分割是对图像中的每个像素进行识别的一种算法,可以对图像进行像素级别的理解。作为计算机视觉中的基础任务之一,其不仅仅在学术界广受关注,也在无人驾驶工业检测、辅助诊断等领域有着广泛的应用。

近期,计图团队与南开大学程明明教授团队、非十科技刘政宁博士等合作,提出了一种全新的语义分割模型 SegNeXt,该方法大幅提高了当前语义分割方法的性能,并在Pascal VOC 分割排行榜上名列第一。该论文已被 NeurIPS 2022 接收。

Part1

语义分割模型SegNeXt

研究背景 自2015年FCN[2] 被提出以来,语义分割开始逐渐走向深度学习算法,其常用架构为编码-解码器结构(Encoder-Decoder)。在 vision transformer 被提出之前,人们通常采用卷积神经网络(如 ResNet、VGGNet、GoogleNet 等) 作为其编码器部分;最近,由于vision transformer 在视觉领域的成功,语义分割编码器部分开始逐渐被换成基于vision transformer的模型(如 ViT、SegFormer、HRFormer等)。但是,基于 vision transformer编码器的方法真的比基于卷积神经网络的方法更好么?为了回答这个问题,Jittor团队重新思考了语义分割任务对神经网络的要求,并针对语义分割的任务专门设计了一个基于卷积神经网络的编码器MSCAN 和一个语义分割模型 SegNeXt。

cd9d8030-3c22-11ed-9e49-dac502259ad0.png

图1. SegNeXt 和其他语义分割方法的性能对比,其中红色为SegNeXt

方法概述

论文首先分析了语义分割任务本身以及之前的相关工作,总结出四点语义分割任务所需的关键因素。1)强大的骨干网络作为编码器。与之前基于 CNN 的模型相比,基于Transformer 的模型的性能提升主要来自更强大的骨干网络。2)多尺度信息交互。与主要识别单个对象的图像分类任务不同,语义分割是一项密集的预测任务,因此需要在单个图像中处理不同大小的对象,这就使得针对语义分割任务的网络需要多尺度信息的交互。3)注意力机制:注意力可以使得模型关注到重点的部分,并且可以使得网络获得自适应性。4)低计算复杂度:这对于常常处理高分辨率图像的语义分割任务来说至关重要。

cda70fa6-3c22-11ed-9e49-dac502259ad0.png

表 1 不同方法所具有的的属性对比

为了满足上述四点要求,作者设计了一种简单的多尺度卷积注意力机制 (MSCA)。如图 2 所示,MSCA 主要是采用大卷积核分解、多分支并行架构以及类似VAN[3]的注意力机制。这使得 MSCA 可以获得大感受野、多尺度信息以及自适应性等有益属性。基于 MSCA,该论文搭建了一种层次化神经网络 MSCAN 作为SegNeXt 的编码器部分。除此之外,作者采用了 UNet 架构,并选择了HamNet[4] 作为 SegNeXt 的解码器部分。分析和实验证明,MSCAN和 Ham 优势互补,两者相互配合,使得 SegNeXt 实现了优异的性能。

cdb2dd5e-3c22-11ed-9e49-dac502259ad0.png

图 2:多尺度卷积注意力(MSCA) 示意图 实验结果 本文在五个常见分割数据集上 ADE20K, Cityscapes,COCO-Stuff, Pascal VOC, Pascal Context 和一个遥感分割数据集 iSAID做了测评,SegNeXt均超过了之前的方法。限于篇幅,我们仅展示部分结果。

表2:在 ADE20K、Cityscapes, COCO-Stuff 上的实验结果

cdd3f5e8-3c22-11ed-9e49-dac502259ad0.png

表 3 SegNeXt 在遥感数据集上的实验结果

cde6a774-3c22-11ed-9e49-dac502259ad0.png

Part2 计图语义分割算法库JSeg Jittor团队基于自主深度学习框架Jittor[5],并借鉴MMSegmentation语义分割算法库的特点,开发了语义分割算法库JSeg。MMSegmentation是广泛使用的功能强大的语义分割算法库,新推出的JSeg可以直接加载MMSegmentation的模型,同时借助Jittor深度学习平台的优势,使其更高效、稳定运行,可以实现训练和推理快速的从PyTorch向Jittor迁移。 目前JSeg已经支持4个模型、4个数据集,其中模型包括在Pascal VOC test dataset斩获第一的SegNeXt模型,数据集包括经典的ADE20K Dataset、CityScapes Dataset以及遥感分割中的iSAID Dataset等,后续JSeg也将支持更多的模型和数据集! 性能提升 我们使用SegNeX-Tiny模型,与Pytorch实现的版本在NVIDIA TITAN RTX上进行了对比,可以显著缩短模型训练所需要的时间。

表1JSeg和mmseg(PyTorch)的训练时间对比

ce026cd4-3c22-11ed-9e49-dac502259ad0.png

易用性提升

由于Jittor动态编译的特性及code算子对python内联C++及CUDA的支持,JSeg在不同环境下无需对任何算子进行手动编译,即可轻松运行不同模型,免去了用户对不同模型分别配置环境的负担,同时方便用户对不同方法进行更公平的比较。此外,JSeg的设计易于拓展,用户可以基于JSeg已有的模型和功能方便地开展进一步的研究和开发。

实践案例

下面,我们将简要介绍如何使用JSeg训练一个基础模型。

首先,下载数据集到原始数据集目录。

ce13a83c-3c22-11ed-9e49-dac502259ad0.png

通过tools/convert_datasets下的数据处理脚本对原始数据进行预处理,得到处理后的数据集。然后即可对模型进行单卡或者多卡训练、评估和测试,同时提供了推理接口,用户可以使用10行代码完成一张图片的语义分割,尽可能地降低了用户的使用成本。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1129

    浏览量

    40622
  • 模型
    +关注

    关注

    1

    文章

    3103

    浏览量

    48639
  • 计算机视觉
    +关注

    关注

    8

    文章

    1694

    浏览量

    45894
  • 深度学习
    +关注

    关注

    73

    文章

    5459

    浏览量

    120863

原文标题:NeurIPS 2022 | 清华&南开提出SegNeXt:重新思考语义分割的卷积注意力设计

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    聚焦语义分割任务,如何用卷积神经网络处理语义图像分割

    CNN架构图像语义分割 图像分割是根据图像内容对指定区域进行标记的计算机视觉任务,简言之就是「这张图片里有什么,其在图片中的位置是什么?」本文聚焦于语义
    发表于 09-17 15:21 547次阅读

    Facebook AI使用单一神经网络架构来同时完成实例分割语义分割

    这一新架构“全景 FPN ”在 Facebook 2017 年发布的 Mask R-CNN 的基础上添加了一个用于语义分割的分支。这一新架构可以同时对图像进行实例和语义分割,而且精确度
    的头像 发表于 04-22 11:46 2843次阅读
    Facebook AI使用单一神经网络架构来同时完成实例<b class='flag-5'>分割</b>和<b class='flag-5'>语义</b><b class='flag-5'>分割</b>

    DeepLab进行语义分割的研究分析

    DeepLab是谷歌使用tensorflow基于CNN开发的语义分割模型,至今已更新4个版本。最新版本是DeepLabv3+,在此模型中进一步将深度可分离卷积应用到孔空间金字塔池化和解
    发表于 10-24 08:00 11次下载
    DeepLab进行<b class='flag-5'>语义</b><b class='flag-5'>分割</b>的研究分析

    语义分割算法系统介绍

    图像语义分割是图像处理和是机器视觉技术中关于图像理解的重要任务。语义分割即是对图像中每一个像素点进行分类,确定每个点的类别,从而进行区域划分,为了能够帮助大家更好的了解
    的头像 发表于 11-05 10:34 6566次阅读

    语义分割方法发展过程

    语义分割的最简单形式是对一个区域设定必须满足的硬编码规则或属性,进而指定特定类别标签. 编码规则可以根据像素的属性来构建,如灰度级强度(gray level intensity). 基于该技术的一种
    的头像 发表于 12-28 14:28 5046次阅读

    分析总结基于深度神经网络的图像语义分割方法

    随着深度学习技术的快速发展及其在语义分割领域的广泛应用,语义分割效果得到显著提升。对基于深度神经网络的图像语义
    发表于 03-19 14:14 21次下载
    分析总结基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    结合双目图像的深度信息跨层次特征的语义分割模型

    为改善单目图像语义分割网络对图像深度变化区域的分割效果,提出一种结合双目图像的深度信息和跨层次特征进行互补应用的语义分割
    发表于 03-19 14:35 21次下载
    结合双目图像的深度信息跨层次特征的<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>模型</b>

    基于深度学习的三维点云语义分割研究分析

    近年来,深度传感器和三维激光扫描仪的普及推动了三维点云处理方法的快速发展。点云语义分割作为理解三维场景的关键步骤,受到了研究者的广泛关注。随着深度学习的迅速发展并广泛应用到三维语义
    发表于 04-01 14:48 16次下载
    基于深度学习的三维点云<b class='flag-5'>语义</b><b class='flag-5'>分割</b>研究分析

    基于深度神经网络的图像语义分割方法

    对应用于图像语义分割的几种深度神经网络模型进行简单介绍,接着详细阐述了现有主流的基于深度神经网络的图像语义分割
    发表于 04-02 13:59 11次下载
    基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    基于SEGNET模型的图像语义分割方法

    使用原始 SEGNET模型对图像进行语义分割时,未对图像中相邻像素点间的关系进行考虑,导致同一目标中像素点类别预测结果不一致。通过在 SEGNET结构中加入一条自上而下的通道,使得 SEGNET包含
    发表于 05-27 14:54 15次下载

    图像语义分割的概念与原理以及常用的方法

    从最简单的像素级别“阈值法”(Thresholding methods)、基于像素聚类的分割方法(Clustering-based segmentation methods)到“图划分”的分割
    的头像 发表于 04-20 10:01 4115次阅读

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    Adapter Network (SAN)的新框架,用于基于预训练的视觉语言模型进行开放式语义分割。该方法语义
    的头像 发表于 07-10 10:05 991次阅读
    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇<b class='flag-5'>语义</b><b class='flag-5'>分割</b>架构

    深度学习图像语义分割指标介绍

    深度学习在图像语义分割上已经取得了重大进展与明显的效果,产生了很多专注于图像语义分割模型与基准数据集,这些基准数据集提供了一套统一的批判
    发表于 10-09 15:26 360次阅读
    深度学习图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>指标介绍

    图像分割语义分割中的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心模型
    的头像 发表于 07-09 11:51 558次阅读

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义
    的头像 发表于 07-17 09:56 331次阅读