3D架构相对于等效2D实现的性能增益-电子发烧友网

本文介绍了一种从稀疏标注的体积图像中学习的体积分割网络。我们概述了该方法的两个有吸引力的用例：（1）在半自动设置中，用户注释要分割的体积中的一些切片。网络从这些稀疏注释中学习并提供密集的3D分割。(2)在全自动设置中，我们假设存在一个有代表性的、稀疏注释的训练集。在这个数据集上训练，网络密集分割新的体积图像。所提出的网络扩展了Ronneberger等人先前的u-net架构。通过将所有2D操作替换为对应的3D操作。该实现在训练期间执行动态弹性变形以实现有效的数据增强。它是从头开始端到端训练的，即不需要预先训练的网络。我们在复杂、高度可变的3D结构（非洲爪蟾肾脏）上测试了所提出方法的性能，并在两个用例中都取得了良好的效果。

「关键词：」卷积神经网络，3D，生物医学体积图像分割，非洲爪蟾肾脏，半自动，全自动，稀疏标注

1 Introduction

体积数据在生物医学数据分析中非常丰富。使用分段标签对此类数据进行注释会造成困难，因为计算机屏幕上只能显示2D切片。因此，以逐片的方式注释大量数据是非常繁琐的。这也是低效的，因为相邻切片显示几乎相同的信息。特别是对于需要大量注释数据的基于学习的方法，3D 体积的完整注释不是创建能够很好地泛化的大型和丰富的训练数据集的有效方法。

图 1：使用3D u-net进行体积分割的应用场景。(a)半自动分割：用户注释要分割的每个体积的一些切片。网络预测密集分割。(b)全自动分割：网络使用来自代表性训练集的带注释切片进行训练，并且可以在非注释卷上运行。

❞

在本文中，我们提出了一个深度网络，它可以学习生成密集的体积分割，但只需要一些带注释的2D切片进行训练。该网络可以以两种不同的方式使用，如图1所示：第一个应用案例仅针对密集化稀疏注释的数据集；第二个从多个稀疏注释的数据集中学习以推广到新数据。这两个案例都具有高度相关性。

该网络基于之前的u-net架构，由一个用于分析整个图像的收缩编码器部分和一个用于产生全分辨率分割的连续扩展解码器部分组成 [11]。虽然u-net是一个完全2D的架构，但本文提出的网络将3D卷作为输入，并使用相应的3D操作对其进行处理，特别是3D convolutions,3D max pooling, 和3D up-convolutional层。此外，我们避免了网络架构[13]中的瓶颈，并使用批量归一化[4]来加快收敛速度。

在许多生物医学应用中，只需要很少的图像来训练一个泛化能力相当好的网络。这是因为每个图像已经包含具有相应变化的重复结构。在体积图像中，这种效果更加明显，因此我们可以只在两个体积图像上训练一个网络，以便推广到第三个。加权损失函数和特殊的数据增强使我们能够仅使用少量手动注释切片来训练网络，即来自稀疏注释的训练数据。

我们展示了所提出的方法在困难的爪蟾肾共焦显微数据集上的成功应用。在其发展过程中，非洲爪蟾肾脏形成了一个复杂的结构[7]，这限制了预定义参数模型的适用性。首先，我们提供定性结果来证明少数带注释切片的稠密化质量。这些结果得到定量评估的支持。我们还提供了实验，显示了带注释的切片数量对我们网络性能的影响。基于Caffe[5]的网络实现作为开源提供。

1.1 Related Work

具有挑战性的生物医学2D图像可以通过CNN以接近人类表现的精度进行分割[11，12，3]。由于这一成功，已经进行了几次尝试将3D CNNs应用于生物医学体积数据。Milletari等人[9]提出了一种结合Hough投票法的CNN用于3D分割。然而，他们的方法不是端到端的，只适用于紧凑的团状结构。Kleesiek等人[6]的方法是用于3D分割的少数端到端3D CNN方法之一。然而，它们的网络并不深，在第一次卷积后只有一个最大池；因此，它不能在多个尺度上分析结构。我们的工作基于2D u-net [11]，该网络在2015年赢得了多项国际分割和跟踪比赛。u-net的体系结构和数据扩充允许仅从几个带注释的样本中学习具有非常好的泛化性能的模型。它利用了这样一个事实，即适当应用的刚性变换和轻微的弹性变形仍然会产生生物上似是而非的图像。上行卷积架构，如用于语义分割的全卷积网络[8]和u-net，仍然没有广泛传播，我们只知道一种将这种架构推广到3D的尝试[14]。在Tran等人的这项工作中，该架构被应用于视频，并且完整的注释可用于训练。本文的重点是，由于其无缝拼接策略，它可以在稀疏标注的卷上从头开始训练，并且可以在任意大的卷上工作。

2 Network Architecture

图2说明了网络架构。像标准的u-net一样，它有一个分析和综合路径，每个路径有四个解析步骤。在分析路径中，每一层包含两个3 × 3 × 3卷积，每个卷积后跟一个整流线性单元(ReLu)，然后是一个2 × 2 × 2最大池化，每个维度的步长为2。在合成路径中，每一层都包括一个2 × 2 × 2的上卷积，每个维度上的步长为2，然后是两个3 × 3 × 3的卷积，每个卷积之后是一个ReLu。分析路径中相同分辨率层的快捷连接为合成路径提供了基本的高分辨率特征。在最后一层中，1×1×1卷积将输出通道的数量减少到标签的数量，在本例中为3个。该架构共有19069955个参数。正如[13]中所建议的，我们通过在最大池化之前将通道数量翻倍来避免瓶颈。我们在合成路径中也采用这种方案。

图 2: 3D u-net架构。蓝框代表要素地图。通道的数量在每个特征图上标出。

❞

网络的输入是具有3个通道的图像的132 × 132 × 116体素块。我们在最后一层的输出分别是x、y和z方向的44×44×28个体素。在体素尺寸为1.76×1.76×2.04的情况下，对于预测分割中的每个体素，近似感受野变为155×155×180。因此，每个输出体素都可以访问足够的上下文来有效地学习。我们还在每次ReLU之前引入了批处理归一化(“BN”)。在[4]中，每批在训练期间用其平均值和标准偏差进行归一化，并使用这些值更新全局统计数据。接下来是一个层，用于显式学习比例和偏差。在测试时，通过这些计算出的全局统计数据和学习到的标度和偏差来进行标准化。然而，我们有一个批量和几个样品。在这样的应用程序中，在测试时使用当前的统计数据效果最好。该架构的重要部分是加权的softmax损失函数，它允许我们对稀疏注释进行训练。将未标记像素的权重设置为零使得可以仅从标记的像素中学习，从而推广到整个体积。

3 Implementation Details

3.1 Data

我们有三个处于Nieuwkoop-Faber阶段36-37的爪蟾肾胚胎样本[10]。其中一个如图1所示(左)。使用配备有Plan-Apochromat 40x/1.3油浸物镜的Zeiss LSM 510 DUO倒置共焦显微镜，在具有3个通道的四个瓷砖中记录了3D数据，体素尺寸为0.88×0.88×1.02。第一个通道显示番茄凝集素与488nm激发波长的荧光素偶联。第二个通道显示在405nm激发下DAPI染色的细胞核。第三个通道显示Beta-Catenin使用标记有Cy3的二抗在564nm激发下标记细胞膜。我们使用Slicer3D在每个体积中手动注释一些正交的xy、xz和yz切片[2]。根据良好的数据表示选择注释位置，即在所有3个维度上尽可能均匀地采样注释切片。不同的结构被赋予标签0:“小管内”；1:“小管”；2:“背景”，3:“未标注”。未标记切片中的所有体素也获得标记3(“未标记”)。我们对原始分辨率的下采样版本进行了所有的实验，在每个维度上的因子为2。因此，对于我们的样本1、2和3，实验中使用的数据大小在x × y × z维度上分别为248 × 244 × 64、245 × 244 × 56和246 × 244 × 59。对于样本1、2和3，正交(yz、xz、xy)切片中人工注释的切片数量分别为(7、5、21)、(6、7、12)和(4、5、10)。

3.2 Training

除了旋转、缩放和灰度值增强之外，我们还在数据和ground truth标签上应用了平滑的密集变形场。为此，我们在每个方向上间隔32个体素的网格中从标准偏差为4的正态分布中采样随机向量，然后应用B-spline插值。使用带有加权交叉熵损失的softmax比较网络输出和ground truth标签，我们减少常见背景的权重并增加内小管的权重，以达到小管和背景体素对损失的平衡影响。标签为3（“未标记”）的体素对损失计算没有贡献，即权重0。我们使用Caffe [5]框架的随机梯度下降求解器进行网络训练。为了能够训练大型3D网络，我们使用了内存高效的卷积层实现。数据增强是即时完成的，这会产生与训练迭代一样多的不同图像。我们在NVIDIA TitanX GPU上运行了70000次训练迭代，大约耗时3天。

4 Conclusion

我们引入了一种端到端的学习方法，可以半自动和全自动地从稀疏注释中分割出3D体积。它为非洲爪蟾肾脏的高度可变结构提供了准确的分割。我们在半自动设置的3折交叉验证实验中实现了0.863的平均IoU。在全自动设置中，我们展示了3D架构相对于等效2D实现的性能增益。该网络是从头开始训练的，并且没有针对此应用进行任何优化。我们预计它将适用于许多其他生物医学体积分割任务。它的实现是作为开源提供的。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2928

浏览量
108470
2D

2D

+关注

关注
0

文章
67

浏览量
15292
图像分割

图像分割

+关注

关注
4

文章
182

浏览量
18082

原文标题：3D U-Net：从稀疏注释中学习密集的体积分割

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

针对显示屏的2D/3D触摸与手势开发工具包DV102014

手势功能并与2D PCAP多点触摸设计实现无缝结合而言，GestIC技术可谓是一款复杂性极低的解决方案。利用这一方案，设计人员现在可以轻松地结合2D和3D用户界面技术来建立易用的创新应

发表于 11-07 10:45

如何同时获取2d图像序列和相应的3d点云？

如何同时获取2d图像序列和相应的3d点云？以上来自于谷歌翻译以下为原文How to obtain the sequence of 2d image and corresponding 3d

发表于 11-13 11:25

为什么3D与2D模型不能相互转换？

AD17.1.5软件，3D与2D模型不能相互转换，按3可以进入3D模型，按2不可以进入2D模型，

发表于 09-20 05:35

如何促使2D和3D视觉检测的性能成倍提升？

本文介绍的三个应用案例展示了业界上先进的机器视觉软件和及其图像预处理技术如何促使2D和3D视觉检测的性能成倍提升。

发表于 02-22 06:56

2D到3D视频自动转换系统

研究和实现了一个基于OMAP3530的2D到3D视频自动转换系统，重点研究深度图获取和深度信息渲染等主要核心技术及其实现。该系统利用OMAP3530其特有的双核结构，进行系统优化：由其

发表于 03-06 14:20 •1次下载

适用于显示屏的2D多点触摸与3D手势模块

本视频将展示结合多点触摸与3D手势模块的Microchip显示解决方案。支持2D/3D功能的显示屏是Microchip基于GestIC®技术的最新解决方案。显示屏上结合了3D手势与

发表于 06-06 02:45 •5244次阅读

如何把OpenGL中3D坐标转换成2D坐标

在OpenGL中，一切事物都在3D空间中，但我们的屏幕坐标确实2D像素数组，OpenGL大部分工作就是把3D坐标转换成适应屏幕的2D像素。3D

发表于 07-09 10:40 •8686次阅读

阿里研发全新3D AI算法，2D图片搜出3D模型

AI技术的研究正在从2D走向更高难度的3D。12月3日，记者获悉，阿里技术团队研发了全新3D AI算法，可基于2D图片精准搜索出相应的

发表于 12-04 15:49 •3684次阅读

谷歌发明的由2D图像生成3D图像技术解析

谷歌发明的由2D图像生成3D图像的技术，利用3D估计神经网络图像信息的补全以及预测，融合了拍摄角度、光照等信息，让生成的3D图像看起来更加逼真，这种技术

发表于 12-24 12:55 •4884次阅读

3d人脸识别和2d人脸识别的区别

首先是3d人脸识别和2d人脸识别图像数据获取不同。3D人脸识别是以3D摄像头立体成像，而2D是以2D

发表于 02-05 16:00 •5w次阅读

探讨一下2D和3D拓扑绝缘体

这样的物理规范，具有很高的普适性，applicable 到所有维度空间。对二维 2D 拓扑绝缘体 (2D - TI) 和三维 3D 拓扑绝缘体 (3D - TI)，其体 - 边对应性由

发表于 11-23 10:23 •2816次阅读

2D与3D视觉技术的比较

作为一个多年经验的机器视觉工程师，我将详细介绍2D和3D视觉技术的不同特点、应用场景以及它们能够解决的问题。在这个领域内，2D和3D视觉技术是实现

发表于 12-21 09:19 •1436次阅读

一文了解3D视觉和2D视觉的区别

一文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两种不同的视觉模式，其区别主要体现在立体感、深度感和逼真度上。本文将详细阐述这些区别，并解释为什么

发表于 12-25 11:15 •3885次阅读

介绍一种使用2D材料进行3D集成的新方法

美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法。

发表于 01-13 11:37 •1201次阅读

有了2D NAND，为什么要升级到3D呢？

2D NAND和3D NAND都是非易失性存储技术（NVM Non-VolatileMemory），属于Memory（存储器）的一种。

发表于 03-17 15:31 •1215次阅读

搜索历史

3D架构相对于等效2D实现的性能增益

评论

针对显示屏的2D/3D触摸与手势开发工具包DV102014

如何同时获取2d图像序列和相应的3d点云？

为什么3D与2D模型不能相互转换？

如何促使2D和3D视觉检测的性能成倍提升？

2D到3D视频自动转换系统

适用于显示屏的2D多点触摸与3D手势模块

如何把OpenGL中3D坐标转换成2D坐标

阿里研发全新3D AI算法，2D图片搜出3D模型

谷歌发明的由2D图像生成3D图像技术解析

3d人脸识别和2d人脸识别的区别

探讨一下2D和3D拓扑绝缘体

2D与3D视觉技术的比较

一文了解3D视觉和2D视觉的区别

介绍一种使用2D材料进行3D集成的新方法

有了2D NAND，为什么要升级到3D呢？