0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型transformer模型实现3D医学图像分析最新基准

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-08-15 15:01 次阅读

计算机视觉和模式识别会议( CVPR )上, NVIDIA 研究人员发表了 35 多篇论文。这包括对 移动窗口 UNEt TRansformers ( Swin-UNETR )的研究,这是第一个基于变压器的预训练框架,专为 3D 医学图像分析中的自我监督任务而设计。这项研究是创建用于数据注释的预训练、大规模和自监督三维模型的第一步。

作为一种基于 transformer 的计算机视觉方法, Swin UNETR 采用了 MONAI ,这是一种开源的 PyTorch 框架,用于深入学习医疗成像,包括放射学和病理学。使用这种预训练方案, Swin UNETR 为各种医学图像分割任务设定了新的最先进的基准,并一致证明了其有效性,即使只有少量的标记数据。

Swin UNETR 模型培训

Swin UNETR 模型在 NVIDIA DGX-1 集群 使用八个 GPUAdamW 优化算法。对 5050 张来自健康和不健康受试者不同身体部位的公开 CT 图像进行预训练,以保持数据集的平衡。

对于 3D Swin transformer 编码器的自我监督预训练,研究人员使用了各种借口任务。随机裁剪的标记使用不同的变换(如旋转和剪切)进行增强。这些标记用于掩蔽体修复、旋转和对比学习,用于编码器学习训练数据的上下文表示,而不会增加数据注释的负担。

pYYBAGL571-AKsH1AALchbVmfMI713.png

图 1 :。预培训框架概述。输入的 CT 图像被随机裁剪成子体积,并通过随机内部剪切和旋转进行增强,然后作为输入馈送到 Swin-UNETR 编码器

Swin UNETR 背后的技术

Swin Transformers 采用分层视觉 transformer ( ViT )进行非重叠窗口的局部自我注意计算。这打开了为大型公司创建医疗专用 ImageNet 的机会,消除了创建医疗 AI 模型需要大量高质量注释数据集的瓶颈。

与 CNN 体系结构相比, ViT 在从未标记数据(数据集越大,预训练主干越强)进行全局和局部表示的自监督学习方面表现出非凡的能力。用户可以在下游任务(例如,分割、分类和检测)中使用极少量的标记数据微调预训练模型。

这种体系结构在本地窗口中计算自我注意,与 ViT 相比表现出更好的性能。此外, Swin Transformers 的层次性使其非常适合需要多尺度建模的任务。

继领先的 UNETR 模型成功使用直接使用 3D 补丁嵌入的基于 ViT 的编码器之后, Swin UNETR 使用了具有金字塔结构的 3D Swin transformer 编码器。

在 Swin UNETR 的编码器中,由于计算简单的全局自我注意对于高分辨率特征地图是不可行的,因此在本地窗口中计算自我注意。为了增加局部窗口以外的感受野,使用窗口移位来计算不同窗口的区域相互作用。

Swin UNETR 的编码器通过跳过连接以五种不同的分辨率连接到剩余的类似 UNet 的解码器。它可以为密集的预测任务(如医学图像分割)捕获多尺度特征表示。

Swin UNETR 模型性能

在对 CT 中的 13 个腹部器官和 医学分段十项全能( MSD ) 数据集中的分割任务使用 超越颅穹窿( BTCV )分割挑战 进行微调后,该模型在公共排行榜上达到了最先进的精度。

BTCV

在 BTCV 中, SwinUnetr 的平均骰子数为 0.918 ,优于其他排名靠前的模型。

pYYBAGL572iAYS0KAAFJcNkiNbo915.png

图 2 :。 BTCV 挑战多器官分割排行榜骰子结果

对于较小的器官,如脾静脉和门静脉( 3.6% )、胰腺( 1.6% )和肾上腺( 3.8% ),与之前的最先进方法相比,有了改进小器官数据标签分割对于放射科医生来说是一项极其困难的任务。

通讯簿标签

在 MSD 中, Swin UNETR 在脑肿瘤、肺、胰腺和结肠方面取得了最先进的表现。心脏、肝脏、海马、前列腺、肝血管和脾脏的结果具有可比性。总的来说, Swin UNETR 在所有 10 项任务中的平均骰子率为 78.68% ,是最好的,并在 MSD 排行榜上排名第一。

pYYBAGL573OASYJ5AAUqdCVicy0245.png

图 4 :。使用 MSD 数据集进行肝血管分割任务的定性输出。你可以看到, Swin UNETR 比 SOTA DiNTS 跑赢了 3% 。这一变化很重要,因为它会导致更准确的分段输出

与DiNTS(一种用于医学图像分割的强大AutoML方法)相比,Swin UNETR使用更少的训练时间,显示出更好的分割性能。例如,肝血管分割任务的定性分割输出证明了Swin UNETR能够更好地建模长期空间依赖性。

pYYBAGL574GAYNO0AAIuPO-qS8I870.png

图 5 :。 Swin UNETR 模型体系结构由一个 Swin transformer 编码器组成,该编码器使用 3D 补丁,并通过不同分辨率的跳过连接连接到基于 CNN 的解码器

结论

Swin UNETR 体系结构在使用变压器的医疗成像方面提供了急需的突破。鉴于医学成像需要快速构建准确的模型, Swin UNETR 体系结构使数据科学家能够对大量未标记数据进行预训练。这减少了放射科医生、病理学家和其他临床团队进行专家注释的成本和时间。这里我们展示了用于器官检测和自动体积测量的 SOTA 分割性能。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3579

    浏览量

    134063
  • 计算机
    +关注

    关注

    19

    文章

    7390

    浏览量

    87680
收藏 人收藏

    评论

    相关推荐

    安宝特产品 安宝特3D Analyzer:智能的3D CAD高级分析工具

    安宝特3D Analyzer包含多种实用的3D CAD高级分析工具,包括自动比对模型、碰撞检测、间隙检查、壁厚检查,以及拔模和底切分析,能够
    的头像 发表于 08-07 10:13 321次阅读
    安宝特产品  安宝特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高级<b class='flag-5'>分析</b>工具

    安宝特产品 3D Evolution : 基于特征实现无损CAD格式转换

    安宝特3D Evolution具有强大的3D CAD模型转换功能,可在保留模型特征参数、注释、约束的前提下,完成不同格式3D CAD
    的头像 发表于 08-06 17:26 284次阅读
    安宝特产品   <b class='flag-5'>3D</b> Evolution : 基于特征<b class='flag-5'>实现</b>无损CAD格式转换

    裸眼3D笔记本电脑——先进的光场裸眼3D技术

    效果的用户,这款笔记本电脑都能满足你的需求。 一、卓越的3D模型设计能力 英伦科技裸眼3D笔记本电脑采用最新的光场裸眼3D技术,使用户无需佩戴3D
    的头像 发表于 07-16 10:04 448次阅读

    Transformer语言模型简介与实现过程

    任务,随后迅速扩展到其他NLP任务中,如文本生成、语言理解、问答系统等。本文将详细介绍Transformer语言模型的原理、特点、优势以及实现过程。
    的头像 发表于 07-10 11:48 1233次阅读

    烘焙vs渲染:3D模型制作中的效率与质量之争

    3D建模和渲染领域,模型烘焙(Baking)和模型渲染(Rendering)是两个经常被提及的概念。尽管它们都与最终图像的生成有关,但它们在技术
    的头像 发表于 05-12 08:27 389次阅读
    烘焙vs渲染:<b class='flag-5'>3D</b><b class='flag-5'>模型</b>制作中的效率与质量之争

    ad19中3d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致
    发表于 04-24 13:41

    包含具有多种类型信息的3D模型

    三维视图。事实上,AE可以在将3D BIM模型元素与时间因素联系起来后创建4D模型,从而更广泛地进行产品的可视化预览,更精确地分析建筑项目的
    发表于 03-28 17:18

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张图像
    的头像 发表于 03-22 10:30 770次阅读

    Adobe提出DMV3D3D生成只需30秒!让文本、图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能
    的头像 发表于 01-30 16:20 794次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!让文本、<b class='flag-5'>图像</b>都动起来的新方法!

    高分工作!Uni3D3D基础大模型,刷新多个SOTA!

    我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GP
    的头像 发表于 01-30 15:56 773次阅读
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基础大<b class='flag-5'>模型</b>,刷新多个SOTA!

    如何搞定自动驾驶3D目标检测!

    可用于自动驾驶场景下基于图像3D目标检测的数据集总结。其中一些数据集包括多个任务,这里只报告了3D检测基准(例如KITTI 3D发布了超过
    发表于 01-05 10:43 544次阅读
    如何搞定自动驾驶<b class='flag-5'>3D</b>目标检测!

    3D人体生成模型HumanGaussian实现原理

    3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、
    的头像 发表于 12-20 16:37 1485次阅读
    <b class='flag-5'>3D</b>人体生成<b class='flag-5'>模型</b>HumanGaussian<b class='flag-5'>实现</b>原理

    CASAIM沙盘模型3D打印的优势和应用

    模型3D打印的优势和应用。 一、CASAIM沙盘模型3D打印的优势 1. 高精度:沙盘模型3D
    的头像 发表于 12-19 16:44 548次阅读
    CASAIM沙盘<b class='flag-5'>模型</b><b class='flag-5'>3D</b>打印的优势和应用

    PADS VX2.7 下载安装及3D模型导入的注意事项

    ://mentor.mr-wu.cn/ 安装方式按照安装包内的指导完成即可。 破解注意事项:1.用最新版馒头破解 2.必须关闭杀毒软件,否则破解后不可用! 二:3D模型导入 1.从3D模型
    发表于 11-22 17:54

    HT for Web (Hightopo) 使用心得(4)- 3D 场景 Graph3dView 与 Obj 模型

    这里我们通过代码建立一个 3D 场景并添加一个 Obj 模型来介绍一下 HT for Web 在 3D 场景和模型加载方面的使用。
    的头像 发表于 11-20 11:05 714次阅读
    HT for Web (Hightopo) 使用心得(4)- <b class='flag-5'>3D</b> 场景 Graph<b class='flag-5'>3</b>dView 与 Obj <b class='flag-5'>模型</b>