3D UX-Net：超强的医学图像分割新网络-电子发烧友网

Title: 3D UX-Net: a Large Kernel Volumetric ConvNet Modernizing Hierarchical Transformer for Medical Image Segmentation

Author: Ho Hin Lee et al. (范德堡大学)

Paper: https://arxiv.org/abs/2209.15076

Github: https://github.com/MASILab/3DUX-Net

引言

众所周知，大多数医学图像如 MRI 和 CT 是属于 volumetric data 类型。因此，为了更加充分的利用体素信息，近几年已经提出了不少 3D CNNs 的模型，如 SwinUNETR、UNETR以及笔者前段时间分享过的UNETR++等。

整体来说，这些模型性能是越来越高，在几个主流的 3D 数据基准测试中也实现了大大小小的 SOTA，特别是 3D 医学图像分割这块。当然，时代在进步，作为一名高科技前沿从业者本身也是需要不断汲取新的知识营养才能不被轻易的淘汰。今天小编就带大家解读下 ICLR 2023 新鲜出炉的 3D 医学图像分割之星——3D UX-Net。

3D UXNet 是一种轻量级3D卷积神经网络，其使用 ConvNet 模块调整分层 Transformer 以实现稳健的体素分割，在三个具有挑战性的脑体积和腹部成像公共数据集与当前的 SOTA 模型如 SwinUNETR 对比，同时在以下三大主流数据集性能均达到了最优：

MICCAI Challenge 2021 FLARE
MICCAI Challenge 2021 FeTA
MICCAI Challenge 2022 AMOS

具体的，相比于 SwinUNETR，3D UX-Net 将 Dice 从 0.929 提高到 0.938 (FLARE2021)，Dice 从 0.867 提高到 0.874 (Feta2021)。此外，为了进一步评估 3D UX-Net 的迁移学习能力，作者在 AMOS2022 数据集上训练得到的模型在另一个数据集上取得了 2.27% Dice 的提升(0.880 → 0.900)。

动机

先来看看最近提出的一众基于 Transformer 架构的 ViT 模型有什么优劣势。以 SwinUNETR 为例，其将 ConvNet 的一些先验引入到了 Swin Transformer 分层架构中，进一步增强了在 3D 医学数据集中调整体素分割的实际可行性。此类 "Conv+Transforemr" 的组合拳的有效性在很大程度上归功于以下两个因素：

非局部自注意力所带来的大感受野
大量的模型参数

为此，本文作者想到了应用深度卷积以更少的模型参数来模拟这些方法让网络学会如何捕获更大感受野的行为。这一点笔者在前文《关于语义分割的亿点思考》中也提过，文中对整个任务进行了深度剖析，有兴趣的读者可以自行翻阅公众号历史文章：

语义分割任务的核心思想是如何高效建模上下文信息，它是提升语义分割性能最为重要的因素之一，而有效感受野则大致决定了网络能够利用到多少上下文信息。

回到正文，本文的设计思路主要是受 ConvNeXt 启发，还没了解过的同学也可自行移动到公众号翻阅历史文章，笔者之前对该系列也讲解过了，此处不再详述。3D UX-Net 核心理念是设计出一种简单、高效和轻量化的网络，其适用于 hierarchical transformers 的能力同时保留使用 ConvNet 模块的优势，如归纳偏置。具体地，其编码器模块设计的基本思想可分为: 1) block-wise(微观层面) 及 2) layer-wise(宏观层面)【可以类比下 ConvNeXt】。

block-wise

首先，我们先从下列三个不同的视角进行讨论。

Patch-wise Features Projection

对比 ConvNets 和 ViTs 之间的相似性，两个网络都使用一个共同的基础模块将特征表示缩小到特定的尺寸。以往的方法大都没有将图像块展平为具有线性层的顺序输入，因此作者采用具备大卷积核的投影层来提取 patch-wise 特征作为编码器的输入。

Volumetric Depth-wise Convolution with LKs

Swin transformer 的内在特性之一是用于计算非局部 MSA 的滑动窗口策略。总的来说，有两种分层方法来计算 MSA：基于窗口的 MSA (W-MSA) 和移动窗口 MSA (SW-MSA)。这两种方式都生成了跨层的全局感受野，并进一步细化了非重叠窗口之间的特征对应关系。

受深度卷积思想的启发，作者发现自注意力中的加权和方法与每通道卷积基础之间的相似之处，其认为使用 LK 大小的深度卷积可以在提取类似于 MSA 块的特征时提供大的感受野。因此，本文建议采用 LK 大小（例如，从 7 × 7 × 7 开始）通过深度卷积压缩 Swin transformer 的窗口移动特性。如此一来便可以保证每个卷积核通道与相应的输入通道进行卷积运算，使得输出特征与输入具备相同的通道维度。

Inverted Bottleneck with Depthwise Convolutional Scaling

Swin transformer 的另一个固有结构是，它们被设计为 MLP 块的隐藏层维度比输入维度宽四倍，如下图所示。有趣的是，这种设计与 ResNet 块中的扩张率相关。因此，我们利用 ResNet 块中的类似设计并向上移动深度卷积来计算特征。此外，通过引入了具有 1 × 1 × 1 卷积核大小的深度卷积缩放(DCS)，以独立地线性缩放每个通道特征。通过独立扩展和压缩每个通道来丰富特征表示，可以最小化跨通道上下文产生的冗余信息，同时在每个阶段增强了与下采样块的跨通道特征对应。最后，通过使用 DCS，可以进一步将模型复杂度降低 5%，并展示了与使用 MLP 模型的架构相当的结果。

layer-wise

介绍完微观层面的设计思想，再让我们从宏观层面出发，以另外三个崭新的视角去理解作者的动机。

Applying Residual Connections

从上图左上角可以看到，标准的 3D U-Net 模型内嵌的模块为 2 个 3 x 3 x 3 卷积的堆叠，其展示了使用小卷积核提取具有增加通道的局部表示的朴素方法；而其右手边的 SegResNet 则应用了类似 3D 版本的瓶颈层，先降维再升维最后再接残差表示；紧接着左下角的便是 Swin Transformer，其基于窗口注意力+MLP层的组合；最后右下角便是本文所提出的模块，其在最后一个缩放层之后应用输入和提取特征之间的残差连接。此外，在残差求和前后并没有应用到任何的归一化层和激活层。

Adapting Layer Normalization

我们知道，在卷积神经网络中，BN 是一种常用策略，它对卷积表示进行归一化以增强收敛性并减少过拟合。然而，之前的工作已经证明 BN 会对模型的泛化能力产生不利影响。因此作者这里跟 ConvNeXt 一致，将 BN 替换为 LN。

Using GELU as the Activation Layer

ReLU 是个好东西，几乎是现代 CNNs 模型的首选激活函数。作者在这里提倡使用 GELU，这是一种基于高斯误差的线性变换单元，相对 ReLU 更加平滑，也是其中一种变体，解决 ReLU 因负梯度被硬截断而导致的神经元失活问题。

方法

可以看出，整体的设计思路非常简洁，框架也是一目了然，就一个标准的 3D U-Net 架构，由编码器-解码器组成，同时结合长跳跃连接操作帮助网络更好的恢复空间细节的定位。也没啥好分析的，下面就简单拆开来看看，带大家快速的过一遍就行。

DEPTH-WISE CONVOLUTION ENCODER

首先，输入部分应用一个大卷积核将原始图像映射到一个低维空间分辨率的潜在空间特征表示，一来降低显存参数量计算量等，二来可以增大网络感受野，顺便再处理成编码器输入所需的格式，总之好处多多，不过都是基操。

处理完之后就输入到编码器中进行主要的特征提取，该编码器共4个stage，也是标准的16倍下采样。每个stage由多个不同的 3D UX-Net Block 构成，具体长啥样自己看下左图一点就通。主要的特点就是主打轻量化和大感受野。

DECODER

编码器中每个阶段的多尺度输出通过长跳跃连接链接到基于 ConvNet 的解码器，并形成一个类似U形的网络以用于下游的分割任务。这一块就跟标准的 3D U-Net 几乎没啥两样了。

实验

消融实验

可视化效果

可以看到，与 GT 相比，3D UX-Net器官和组织的形态得到了很好的保存。

与 SOTA 方法的对比

从上述表格可以看出，3D UX-Net 在所有分割任务中均展示出最佳性能，并且 Dice 分数有了显着提高（FeTA2021：0.870 到 0.874，FLARE2021：0.929 到 0.934）。

总结

本文为大家介绍了 3D UX-Net，这是第一个将分层 Transformer 的特征与用于医学图像分割的纯 ConvNet 模块相适应的3D网络架构。具体地，本文重新设计了具有深度卷积的编码器块，以更低的代价实现与 Transformer 想媲美的能力。最后，通过在三个具有挑战性的公共数据集上进行的广泛实验表明所提方法的高效性。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100838
图像分割

图像分割

+关注

关注
4

文章
182

浏览量
18012
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24722

原文标题：ICLR 2023 | 3D UX-Net：超强的医学图像分割新网络

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

用于3D图像的1至4可配置时钟缓冲器数据表

电子发烧友网站提供《用于3D图像的1至4可配置时钟缓冲器数据表.pdf》资料免费下载

发表于 08-23 10:43 •0次下载

用于<b class='flag-5'>3D</b><b class='flag-5'>图像</b>的1至4可配置时钟缓冲器数据表

UNet模型属于哪种神经网络

U-Net模型属于卷积神经网络（Convolutional Neural Network, CNN）的一种特殊形式。它最初由德国弗莱堡大学计算机科学系的研究人员在2015年提出，专为生物医学

发表于 07-24 10:59 •2592次阅读

图像语义分割的实用性是什么

图像语义分割是一种重要的计算机视觉任务，它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用，如自动驾驶、医学图像

发表于 07-17 09:56 •447次阅读

图像分割和语义分割的区别与联系

图像分割和语义分割是计算机视觉领域中两个重要的概念，它们在图像处理和分析中发挥着关键作用。 1. 图像分

发表于 07-17 09:55 •1012次阅读

裸眼3D笔记本电脑——先进的光场裸眼3D技术

效果的用户，这款笔记本电脑都能满足你的需求。一、卓越的3D模型设计能力英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术，使用户无需佩戴3D眼镜就能看到立体的

发表于 07-16 10:04 •561次阅读

图像分割与语义分割中的CNN模型综述

图像分割与语义分割是计算机视觉领域的重要任务，旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络（CNN）作为深度学习的一种核心

发表于 07-09 11:51 •959次阅读

卷积神经网络在图像和医学诊断中的优势

随着人工智能技术的迅猛发展，卷积神经网络（Convolutional Neural Network，简称CNN）作为一种深度学习的代表算法，在图像处理和医学诊断领域展现出了巨大的潜力和优势。CNN

发表于 07-01 15:59 •1178次阅读

什么是光场裸眼3D？

光场裸眼3D技术，是一种无需任何辅助设备（如3D眼镜或头显）即可产生真实三维效果的技术。它通过特殊的显示设备，精确控制光线的方向和强度，使观察者在不同的角度都能看到清晰、连续的立体图像。这种技术的核心在于模拟人眼对真实世界的观察

发表于 05-27 14:21 •1134次阅读

常见的医学图像读取方式和预处理方法

基于深度学习做医学图像数据分析，例如病灶检测、肿瘤或者器官分割等任务，第一步就是要对数据有一个大概的认识。但是我刚刚入门医学图像

发表于 04-19 11:43 •884次阅读

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图3D视频的能力，为视频制作领域带来了革命性的突破。

发表于 03-22 10:30 •864次阅读

3D动画原理：电阻

电阻3D

深圳崧皓电子
发布于 :2024年03月19日 06:49:19

基于深度学习的方法在处理3D点云进行缺陷分类应用

背景部分介绍了3D点云应用领域中公开可访问的数据集的重要性，这些数据集对于分析和比较各种模型至关重要。研究人员专门设计了各种数据集，包括用于3D形状分类、3D物体检测和3D点云

发表于 02-22 16:16 •1189次阅读

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

因此，本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型，能直接根据模型文字或单张图片的输入，生成 3D

发表于 01-30 16:20 •872次阅读

友思特C系列3D相机：实时3D点云图像

3D相机

虹科光电
发布于 :2024年01月10日 17:39:25

如何搞定自动驾驶3D目标检测！

可用于自动驾驶场景下基于图像的3D目标检测的数据集总结。其中一些数据集包括多个任务，这里只报告了3D检测基准（例如KITTI 3D发布了超过40K的

发表于 01-05 10:43 •592次阅读

搜索历史

3D UX-Net：超强的医学图像分割新网络

引言

动机

block-wise

Patch-wise Features Projection

Volumetric Depth-wise Convolution with LKs

Inverted Bottleneck with Depthwise Convolutional Scaling

layer-wise

Applying Residual Connections

Adapting Layer Normalization

Using GELU as the Activation Layer

方法

DEPTH-WISE CONVOLUTION ENCODER

DECODER

实验

消融实验

可视化效果

与 SOTA 方法的对比

总结

评论

用于3D图像的1至4可配置时钟缓冲器数据表

UNet模型属于哪种神经网络

图像语义分割的实用性是什么

图像分割和语义分割的区别与联系

裸眼3D笔记本电脑——先进的光场裸眼3D技术

图像分割与语义分割中的CNN模型综述

卷积神经网络在图像和医学诊断中的优势

什么是光场裸眼3D？

常见的医学图像读取方式和预处理方法

Stability AI推出全新Stable Video 3D模型

3D动画原理：电阻

基于深度学习的方法在处理3D点云进行缺陷分类应用

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

友思特C系列3D相机：实时3D点云图像

如何搞定自动驾驶3D目标检测！