新型transformer模型实现3D医学图像分析最新基准-电子发烧友网

在计算机视觉和模式识别会议（ CVPR ）上， NVIDIA 研究人员发表了 35 多篇论文。这包括对移动窗口 UNEt TRansformers （ Swin-UNETR ）的研究，这是第一个基于变压器的预训练框架，专为 3D 医学图像分析中的自我监督任务而设计。这项研究是创建用于数据注释的预训练、大规模和自监督三维模型的第一步。

作为一种基于 transformer 的计算机视觉方法， Swin UNETR 采用了 MONAI ，这是一种开源的 PyTorch 框架，用于深入学习医疗成像，包括放射学和病理学。使用这种预训练方案， Swin UNETR 为各种医学图像分割任务设定了新的最先进的基准，并一致证明了其有效性，即使只有少量的标记数据。

Swin UNETR 模型培训

Swin UNETR 模型在 NVIDIA DGX-1 集群使用八个 GPU 和 AdamW 优化算法。对 5050 张来自健康和不健康受试者不同身体部位的公开 CT 图像进行预训练，以保持数据集的平衡。

对于 3D Swin transformer 编码器的自我监督预训练，研究人员使用了各种借口任务。随机裁剪的标记使用不同的变换（如旋转和剪切）进行增强。这些标记用于掩蔽体修复、旋转和对比学习，用于编码器学习训练数据的上下文表示，而不会增加数据注释的负担。

图 1 ：。预培训框架概述。输入的 CT 图像被随机裁剪成子体积，并通过随机内部剪切和旋转进行增强，然后作为输入馈送到 Swin-UNETR 编码器

Swin UNETR 背后的技术

Swin Transformers 采用分层视觉 transformer （ ViT ）进行非重叠窗口的局部自我注意计算。这打开了为大型公司创建医疗专用 ImageNet 的机会，消除了创建医疗 AI 模型需要大量高质量注释数据集的瓶颈。

与 CNN 体系结构相比， ViT 在从未标记数据（数据集越大，预训练主干越强）进行全局和局部表示的自监督学习方面表现出非凡的能力。用户可以在下游任务（例如，分割、分类和检测）中使用极少量的标记数据微调预训练模型。

这种体系结构在本地窗口中计算自我注意，与 ViT 相比表现出更好的性能。此外， Swin Transformers 的层次性使其非常适合需要多尺度建模的任务。

继领先的 UNETR 模型成功使用直接使用 3D 补丁嵌入的基于 ViT 的编码器之后， Swin UNETR 使用了具有金字塔结构的 3D Swin transformer 编码器。

在 Swin UNETR 的编码器中，由于计算简单的全局自我注意对于高分辨率特征地图是不可行的，因此在本地窗口中计算自我注意。为了增加局部窗口以外的感受野，使用窗口移位来计算不同窗口的区域相互作用。

Swin UNETR 的编码器通过跳过连接以五种不同的分辨率连接到剩余的类似 UNet 的解码器。它可以为密集的预测任务（如医学图像分割）捕获多尺度特征表示。

Swin UNETR 模型性能

在对 CT 中的 13 个腹部器官和医学分段十项全能（ MSD ）数据集中的分割任务使用超越颅穹窿（ BTCV ）分割挑战进行微调后，该模型在公共排行榜上达到了最先进的精度。

BTCV

在 BTCV 中， SwinUnetr 的平均骰子数为 0.918 ，优于其他排名靠前的模型。

图 2 ：。 BTCV 挑战多器官分割排行榜骰子结果

对于较小的器官，如脾静脉和门静脉（ 3.6% ）、胰腺（ 1.6% ）和肾上腺（ 3.8% ），与之前的最先进方法相比，有了改进小器官数据标签分割对于放射科医生来说是一项极其困难的任务。

通讯簿标签

在 MSD 中， Swin UNETR 在脑肿瘤、肺、胰腺和结肠方面取得了最先进的表现。心脏、肝脏、海马、前列腺、肝血管和脾脏的结果具有可比性。总的来说， Swin UNETR 在所有 10 项任务中的平均骰子率为 78.68% ，是最好的，并在 MSD 排行榜上排名第一。

图 4 ：。使用 MSD 数据集进行肝血管分割任务的定性输出。你可以看到， Swin UNETR 比 SOTA DiNTS 跑赢了 3% 。这一变化很重要，因为它会导致更准确的分段输出

与DiNTS（一种用于医学图像分割的强大AutoML方法）相比，Swin UNETR使用更少的训练时间，显示出更好的分割性能。例如，肝血管分割任务的定性分割输出证明了Swin UNETR能够更好地建模长期空间依赖性。

图 5 ：。 Swin UNETR 模型体系结构由一个 Swin transformer 编码器组成，该编码器使用 3D 补丁，并通过不同分辨率的跳过连接连接到基于 CNN 的解码器

结论

Swin UNETR 体系结构在使用变压器的医疗成像方面提供了急需的突破。鉴于医学成像需要快速构建准确的模型， Swin UNETR 体系结构使数据科学家能够对大量未标记数据进行预训练。这减少了放射科医生、病理学家和其他临床团队进行专家注释的成本和时间。这里我们展示了用于器官检测和自动体积测量的 SOTA 分割性能。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3701

浏览量
135690
计算机

计算机

+关注

关注
19

文章
7572

浏览量
89035

超景深3D检测显微镜技术解析

技术的核心在于其能够实现比传统显微镜更广阔的景深范围，同时保持高分辨率的成像能力，从而为用户提供更为清晰和立体的微观世界视图。超景深3D检测显微镜的实现依赖于先进的光学设计和复杂的图像

发表于 02-25 10:51

腾讯混元3D AI创作引擎正式上线

或上传一张图片，该引擎便能迅速生成与之对应的3D模型。这一功能极大地降低了3D内容创作的门槛，使得更多用户能够轻松涉足这一领域。除了基础的3D模型

发表于 01-22 10:26 •237次阅读

AN-1249：使用ADV8003评估板将3D图像转换成2D图像

电子发烧友网站提供《AN-1249：使用ADV8003评估板将3D图像转换成2D图像.pdf》资料免费下载

发表于 01-08 14:28 •0次下载

Google DeepMind发布Genie 2：打造交互式3D虚拟世界

的交互式体验。据了解，Genie 2是一个自回归潜在扩散模型，它基于大型视频数据集进行训练。通过自动编码器，视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与

发表于 12-05 14:16 •743次阅读

安宝特产品安宝特3D Analyzer：智能的3D CAD高级分析工具

安宝特3D Analyzer包含多种实用的3D CAD高级分析工具，包括自动比对模型、碰撞检测、间隙检查、壁厚检查，以及拔模和底切分析，能够

发表于 08-07 10:13 •494次阅读

安宝特产品 3D Evolution : 基于特征实现无损CAD格式转换

安宝特3D Evolution具有强大的3D CAD模型转换功能，可在保留模型特征参数、注释、约束的前提下，完成不同格式3D CAD

发表于 08-06 17:26 •439次阅读

裸眼3D笔记本电脑——先进的光场裸眼3D技术

效果的用户，这款笔记本电脑都能满足你的需求。一、卓越的3D模型设计能力英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术，使用户无需佩戴3D

发表于 07-16 10:04 •732次阅读

Transformer语言模型简介与实现过程

任务，随后迅速扩展到其他NLP任务中，如文本生成、语言理解、问答系统等。本文将详细介绍Transformer语言模型的原理、特点、优势以及实现过程。

发表于 07-10 11:48 •2357次阅读

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch框架搭建Trans

发表于 07-02 11:41 •2025次阅读

烘焙vs渲染：3D模型制作中的效率与质量之争

在3D建模和渲染领域，模型烘焙（Baking）和模型渲染（Rendering）是两个经常被提及的概念。尽管它们都与最终图像的生成有关，但它们在技术实

发表于 05-12 08:27 •585次阅读

ad19中3d模型不显示？

封装库导入3d模型不显示，但导入3d模型后的封装库生成pcb文件时显示3d模型，这是什么原因导致

发表于 04-24 13:41

包含具有多种类型信息的3D模型

三维视图。事实上，AE可以在将3D BIM模型元素与时间因素联系起来后创建4D模型，从而更广泛地进行产品的可视化预览，更精确地分析建筑项目的

发表于 03-28 17:18

NVIDIA生成式AI研究实现在1秒内生成3D形状

NVIDIA 研究人员使 LATTE3D （一款最新文本转 3D 生成式 AI 模型）实现双倍加速。

发表于 03-27 10:28 •606次阅读

Meta发布SceneScript视觉模型，高效构建室内3D模型

Meta 表示，此模型具备创建室内 3D 模型的高效与轻便，仅需几KB内存便能生成完整清晰的几何图形，同时，这些形状数据具备可解释性，便于用户理解和编辑。

发表于 03-26 11:16 •665次阅读

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像

发表于 03-22 10:30 •1007次阅读