分类任务存在的问题
在生物医学图像处理领域,期望的输出应包含定位信息。
要解决的问题:
1.每个像素都需被分配一个类别标签。
2.生物医学任务中往往难以获得数千张训练图像。
因此,论文作者提出了 U-Net 网络,并结合了收缩路径和对称扩展路径机制。
引入弹性变形进行数据增强,让网络在极少数据下也能学习不变性。
U-Net网络架构详解

以上就是U-net网络架构的图解详情。从上图可以看出U-net主要分为编码器、解码器和跳跃连接。下面将分开进行说明。
首先,编码器为‘‘U’’型的左半部分。网络的输入是图中标记为 input image tile,尺寸为 572×572,是单通道的图像。接着进行,两个 3×3的卷积操作,每个卷积后接一个 ReLU 激活函数。下来,进行下采样操作。每个层级结束后,使用一个 2×2 的最大池化操作进行下采样,步幅为 2。这将特征图的尺寸减半,同时将通道数加倍。类似地,从第2层重复上述操作,一直到第五层。
层级变化为第 1 层是输入 572×572 经过卷积 ,得到570×570 64个通道的图像。
第 2 层是池化后 284×284 经过卷积 ,得到280×280 128个通道的图像。
第 3 层是池化后 140×140经过卷积 , 得到136×136 256个通道的图像。
第 4 层是池化后 68×68 经过卷积 ,得到64×64512个通道的图像。
第 5 层是池化后 32×32经过卷积 , 28×28 1024个通道的图像。
最后,解码器为‘‘U’’型的右半部分。
up-conv 2x2),将特征图尺寸扩大一倍,通道数减半。上采样后的特征图与解码器中对应层级的特征图进行拼接。由于卷积操作没有填充,特征图尺寸会变小。因此,收缩路径的特征图需要进行中心裁剪,以匹配扩展路径特征图的尺寸。拼接后的特征图再次经过两个 3 的卷积层和 ReLU 激活。解码器层级变化为第 1 层,上采样至 56×56,并与来自第 4 层的 512 通道进行拼接,下来卷积 , 变为52×52 512 通道的图像。
第 2 层为上采样至 104×104 , 并与来自第 3 层的 256 通道进行拼接→,下来进行卷积 ,变为 100×100 256 通道的图像。
第 3 层为上采样至 200×200拼接,并与来自第 2 层的 128 通道进行拼接,下来进行卷积,变为 196×196 128 通道的图像。
第 4 层为上采样至 392×392,并与来自第 1 层的 64 通道进行拼接,下来进行卷积, 388×388 64 通道的图像。
训练
U-Net网络采用随机梯度下降法训练,采用的是无填充卷积,输出图像比输入少一些边界宽度。为了最小化开销并最大限度地利用GPU内存,我们倾向于在大批量数据大小的情况下使用大的输入图像块,从而将批量数据大小减少到单张图像。因此,论文里使用高动量(0.99),使得大量先前看到的训练样本确定当前优化步骤中的更新。
在细胞分割场景中,存在两个主要问题,一个是背景像素远多于细胞像素。第二个就是相互接触的同类细胞难以被区分开,网络倾向于将它们预测为一个连通域。以下的图清晰地展示了这两个问题。

为了解决这个问题,论文提出了能量函数,它是一种特殊的损失函数,用于衡量模型输出的结果与实际标签之间的差异,并给出一个表示分割结果好坏的数值。

权重图的设计是 U-Net 训练策略的精髓,它由平衡类别频率和组成。平衡类别频率是为了让网络关注较少出现的细胞像素,背景类的权重设得较低,细胞边缘和内部的权重设得较高。分离接触细胞是这是最关键的一步。对于两个相互接触的细胞,计算它们之间的分离边界。在损失函数中,给予这个边界区域极高的权重。具体做法是计算每个像素到最近细胞边界的距离 和到第二近细胞边界的距离 。
权重公式通常形式为:
数据增强包括旋转、平移、弹性变形和灰度值变化等,其中弹性变形尤为重要,因为它能帮助网络学习到变形不变性。
为了计算输出图像边缘像素的预测值,网络利用输入图像的镜像反射来推断缺失的上下文信息。这使得网络可以无缝分割任意大小的图像。
实验结果
U-Net 在 ISBI 细胞追踪挑战赛中获得了显著的结果,特别是在相衬和 DIC 显微镜图像的细胞分割任务上。

U-Net在PhC-U373和DIC-HeLa数据集中分别以0.9203和0.7756的高IoU值以打优势打败第二名。

结论
U-Net 证明了通过全卷积架构结合弹性形变数据增强,完全可以在极少量标注数据的情况下,训练出高效且高精度的分割模型。它的出现成功解决了生物医学图像中细胞粘连和边界模糊的难题。
论文原文:U-Net: Convolutional Networks for Biomedical Image Segmentation
