0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型transformer模型实现3D医学图像分析最新基准

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-08-15 15:01 次阅读

计算机视觉和模式识别会议( CVPR )上, NVIDIA 研究人员发表了 35 多篇论文。这包括对 移动窗口 UNEt TRansformers ( Swin-UNETR )的研究,这是第一个基于变压器的预训练框架,专为 3D 医学图像分析中的自我监督任务而设计。这项研究是创建用于数据注释的预训练、大规模和自监督三维模型的第一步。

作为一种基于 transformer 的计算机视觉方法, Swin UNETR 采用了 MONAI ,这是一种开源的 PyTorch 框架,用于深入学习医疗成像,包括放射学和病理学。使用这种预训练方案, Swin UNETR 为各种医学图像分割任务设定了新的最先进的基准,并一致证明了其有效性,即使只有少量的标记数据。

Swin UNETR 模型培训

Swin UNETR 模型在 NVIDIA DGX-1 集群 使用八个 GPUAdamW 优化算法。对 5050 张来自健康和不健康受试者不同身体部位的公开 CT 图像进行预训练,以保持数据集的平衡。

对于 3D Swin transformer 编码器的自我监督预训练,研究人员使用了各种借口任务。随机裁剪的标记使用不同的变换(如旋转和剪切)进行增强。这些标记用于掩蔽体修复、旋转和对比学习,用于编码器学习训练数据的上下文表示,而不会增加数据注释的负担。

pYYBAGL571-AKsH1AALchbVmfMI713.png

图 1 :。预培训框架概述。输入的 CT 图像被随机裁剪成子体积,并通过随机内部剪切和旋转进行增强,然后作为输入馈送到 Swin-UNETR 编码器

Swin UNETR 背后的技术

Swin Transformers 采用分层视觉 transformer ( ViT )进行非重叠窗口的局部自我注意计算。这打开了为大型公司创建医疗专用 ImageNet 的机会,消除了创建医疗 AI 模型需要大量高质量注释数据集的瓶颈。

与 CNN 体系结构相比, ViT 在从未标记数据(数据集越大,预训练主干越强)进行全局和局部表示的自监督学习方面表现出非凡的能力。用户可以在下游任务(例如,分割、分类和检测)中使用极少量的标记数据微调预训练模型。

这种体系结构在本地窗口中计算自我注意,与 ViT 相比表现出更好的性能。此外, Swin Transformers 的层次性使其非常适合需要多尺度建模的任务。

继领先的 UNETR 模型成功使用直接使用 3D 补丁嵌入的基于 ViT 的编码器之后, Swin UNETR 使用了具有金字塔结构的 3D Swin transformer 编码器。

在 Swin UNETR 的编码器中,由于计算简单的全局自我注意对于高分辨率特征地图是不可行的,因此在本地窗口中计算自我注意。为了增加局部窗口以外的感受野,使用窗口移位来计算不同窗口的区域相互作用。

Swin UNETR 的编码器通过跳过连接以五种不同的分辨率连接到剩余的类似 UNet 的解码器。它可以为密集的预测任务(如医学图像分割)捕获多尺度特征表示。

Swin UNETR 模型性能

在对 CT 中的 13 个腹部器官和 医学分段十项全能( MSD ) 数据集中的分割任务使用 超越颅穹窿( BTCV )分割挑战 进行微调后,该模型在公共排行榜上达到了最先进的精度。

BTCV

在 BTCV 中, SwinUnetr 的平均骰子数为 0.918 ,优于其他排名靠前的模型。

pYYBAGL572iAYS0KAAFJcNkiNbo915.png

图 2 :。 BTCV 挑战多器官分割排行榜骰子结果

对于较小的器官,如脾静脉和门静脉( 3.6% )、胰腺( 1.6% )和肾上腺( 3.8% ),与之前的最先进方法相比,有了改进小器官数据标签分割对于放射科医生来说是一项极其困难的任务。

通讯簿标签

在 MSD 中, Swin UNETR 在脑肿瘤、肺、胰腺和结肠方面取得了最先进的表现。心脏、肝脏、海马、前列腺、肝血管和脾脏的结果具有可比性。总的来说, Swin UNETR 在所有 10 项任务中的平均骰子率为 78.68% ,是最好的,并在 MSD 排行榜上排名第一。

pYYBAGL573OASYJ5AAUqdCVicy0245.png

图 4 :。使用 MSD 数据集进行肝血管分割任务的定性输出。你可以看到, Swin UNETR 比 SOTA DiNTS 跑赢了 3% 。这一变化很重要,因为它会导致更准确的分段输出

与DiNTS(一种用于医学图像分割的强大AutoML方法)相比,Swin UNETR使用更少的训练时间,显示出更好的分割性能。例如,肝血管分割任务的定性分割输出证明了Swin UNETR能够更好地建模长期空间依赖性。

pYYBAGL574GAYNO0AAIuPO-qS8I870.png

图 5 :。 Swin UNETR 模型体系结构由一个 Swin transformer 编码器组成,该编码器使用 3D 补丁,并通过不同分辨率的跳过连接连接到基于 CNN 的解码器

结论

Swin UNETR 体系结构在使用变压器的医疗成像方面提供了急需的突破。鉴于医学成像需要快速构建准确的模型, Swin UNETR 体系结构使数据科学家能够对大量未标记数据进行预训练。这减少了放射科医生、病理学家和其他临床团队进行专家注释的成本和时间。这里我们展示了用于器官检测和自动体积测量的 SOTA 分割性能。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3634

    浏览量

    134401
  • 计算机
    +关注

    关注

    19

    文章

    7484

    浏览量

    87841
收藏 人收藏

    评论

    相关推荐

    Google DeepMind发布Genie 2:打造交互式3D虚拟世界

    的交互式体验。 据了解,Genie 2是一个自回归潜在扩散模型,它基于大型视频数据集进行训练。通过自动编码器,视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与
    的头像 发表于 12-05 14:16 378次阅读

    安宝特产品 安宝特3D Analyzer:智能的3D CAD高级分析工具

    安宝特3D Analyzer包含多种实用的3D CAD高级分析工具,包括自动比对模型、碰撞检测、间隙检查、壁厚检查,以及拔模和底切分析,能够
    的头像 发表于 08-07 10:13 367次阅读
    安宝特产品  安宝特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高级<b class='flag-5'>分析</b>工具

    安宝特产品 3D Evolution : 基于特征实现无损CAD格式转换

    安宝特3D Evolution具有强大的3D CAD模型转换功能,可在保留模型特征参数、注释、约束的前提下,完成不同格式3D CAD
    的头像 发表于 08-06 17:26 325次阅读
    安宝特产品   <b class='flag-5'>3D</b> Evolution : 基于特征<b class='flag-5'>实现</b>无损CAD格式转换

    裸眼3D笔记本电脑——先进的光场裸眼3D技术

    效果的用户,这款笔记本电脑都能满足你的需求。 一、卓越的3D模型设计能力 英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术,使用户无需佩戴3D
    的头像 发表于 07-16 10:04 509次阅读

    Transformer语言模型简介与实现过程

    任务,随后迅速扩展到其他NLP任务中,如文本生成、语言理解、问答系统等。本文将详细介绍Transformer语言模型的原理、特点、优势以及实现过程。
    的头像 发表于 07-10 11:48 1593次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建Trans
    的头像 发表于 07-02 11:41 1575次阅读

    烘焙vs渲染:3D模型制作中的效率与质量之争

    3D建模和渲染领域,模型烘焙(Baking)和模型渲染(Rendering)是两个经常被提及的概念。尽管它们都与最终图像的生成有关,但它们在技术
    的头像 发表于 05-12 08:27 437次阅读
    烘焙vs渲染:<b class='flag-5'>3D</b><b class='flag-5'>模型</b>制作中的效率与质量之争

    ad19中3d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致
    发表于 04-24 13:41

    包含具有多种类型信息的3D模型

    三维视图。事实上,AE可以在将3D BIM模型元素与时间因素联系起来后创建4D模型,从而更广泛地进行产品的可视化预览,更精确地分析建筑项目的
    发表于 03-28 17:18

    NVIDIA生成式AI研究实现在1秒内生成3D形状

    NVIDIA 研究人员使 LATTE3D (一款最新文本转 3D 生成式 AI 模型实现双倍加速。
    的头像 发表于 03-27 10:28 485次阅读
    NVIDIA生成式AI研究<b class='flag-5'>实现</b>在1秒内生成<b class='flag-5'>3D</b>形状

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张图像
    的头像 发表于 03-22 10:30 825次阅读

    Adobe提出DMV3D3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能
    的头像 发表于 01-30 16:20 842次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!让文本、<b class='flag-5'>图像</b>都动起来的新方法!

    高分工作!Uni3D3D基础大模型,刷新多个SOTA!

    我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GP
    的头像 发表于 01-30 15:56 858次阅读
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基础大<b class='flag-5'>模型</b>,刷新多个SOTA!

    如何搞定自动驾驶3D目标检测!

    可用于自动驾驶场景下基于图像3D目标检测的数据集总结。其中一些数据集包括多个任务,这里只报告了3D检测基准(例如KITTI 3D发布了超过
    发表于 01-05 10:43 577次阅读
    如何搞定自动驾驶<b class='flag-5'>3D</b>目标检测!

    3D人体生成模型HumanGaussian实现原理

    3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、
    的头像 发表于 12-20 16:37 1589次阅读
    <b class='flag-5'>3D</b>人体生成<b class='flag-5'>模型</b>HumanGaussian<b class='flag-5'>实现</b>原理