前言
文章提出的概率退化模型 (PDM) 可以更好地将退化作用与图像内容解耦。与之前的退化模型相比,PDM 可以生成具有更大退化多样性的 HR-LR 训练样本,这可以生成更多种类的退化作用,并有助于提高 SR 模型在测试图像上的性能。
9 学习图像盲超分的退化分布 PDM
论文名称:Learning the Degradation Distribution for Blind Image Super-Resolution (CVPR 2022)
9.1 盲超分任务介绍
作为基本的 low-level 视觉问题,单图像超分辨率 (SISR) 越来越受到人们的关注。SISR 的目标是从其低分辨率观测中重建高分辨率图像。目前已经提出了基于深度学习的方法的多种网络架构和超分网络的训练策略来改善 SISR 的性能。顾名思义,SISR 任务需要两张图片,一张高分辨率的 HR 图和一张低分辨率的 LR 图。超分模型的目的是根据后者生成前者,而退化模型的目的是根据前者生成后者。经典超分任务 SISR 认为:低分辨率的 LR 图是由高分辨率的 HR 图经过某种退化作用得到的,这种退化核预设为一个双三次下采样的模糊核 (downsampling blur kernel)。 也就是说,这个下采样的模糊核是预先定义好的。但是,在实际应用中,这种退化作用十分复杂,不但表达式未知,而且难以简单建模。双三次下采样的训练样本和真实图像之间存在一个域差。以双三次下采样为模糊核训练得到的网络在实际应用时,这种域差距将导致比较糟糕的性能。这种退化核未知的超分任务我们称之为盲超分任务 (Blind Super Resolution)。
令 和 分别代表 HR 和 LR 图片, 退化模型为:
式中, 代表输入图像, 代表卷积操作, 模型主要由 3 部分组成:模糊核 , 下采样操作 和附加噪声 。前人工作中最广泛采用的模糊核是各向同性高斯模糊核 (Isotropic Gaussian Blur Kernel)。 一般为加性白高斯噪声 (Additive White Gaussian Noise, AWGN)。Blind SISR 任务就是从 LR 图片恢复 HR 图片的过程。
9.2 为什么要学习图像盲超分的退化分布
在盲超分辨率超详细解读 (一):模糊核迭代校正方法 IKC 中,我们介绍了一种模糊核迭代校正的盲超分方法 IKC。IKC 发现只有当我们预设的模糊核与图片真实的模糊核相差不大的时候,超分的结果才显得自然,没有伪影和模糊。因此,IKC 提出了一种退化核的迭代校正方法。它的每次迭代都可以分成2步:
第1步:从 LR 图片中估计模糊核 。
第2步:根据估计得到的模糊核 复原 SR 图片。
这样做的缺点是:第1步带来的微小偏差或者错误将会对第2步的结果带来较大的影响。所以,IKC 为了准确地估计模糊核 ,设计一个校正函数 ,它测量估计的模糊核 和真值之间的差异。先训练好超分模型,之后迭代训练预测器和校正器若干次,得到模糊核的一个较为准确的估计。最后借助这个模糊核完成超分的任务。
在盲超分辨率超详细解读 (二):盲超分的端到端交替优化方法 DAN (本文作者团队) 中,作者设计了两个模块,分别是 Restorer 和 Estimator。Restorer 可以根据 Estimator 估计得到的模糊核 复原 SR 图,而复原得到的 SR 图又进一步输入 Estimator 以更好地取估计模糊核 。一旦模糊核 被初始化,这两个模块可以很好地相互协作,形成一个闭环,反复迭代优化。通过这种方式,Estimator 可以利用来自 LR 和 SR 图像的信息,这使得模糊核 的估计更加容易,解决了 IKC 的问题。
但是,IKC 和 DAN 两个方法都预设退化完全取决于图像的内容,所以都是通过一个判别模型 (IKC 的 Predictor 或者 DAN 的 Estimator) 借助图片内容来估计模糊核 (退化作用)。但是真实世界图片的退化作用随机且与图片的内容无关。这些判别模型无法建模不确定的退化作用,以及与图片的内容无关的退化作用,限制了超分模型的性能。
所以,一种更好的解决方案是:我们不通过模型来得到退化作用,而是通过概率模型来建模退化作用。因此,本文作者提出了概率退化模型 (Probabilistic Degradation Model,PDM),可以学习盲图像超分辨率的退化分布。
具体而言,作者把退化模型建模成:
式中, 代表输入图像, 代表卷积操作, 模型主要由 3 部分组成:模糊核 , 下采样操作 和附加噪声 。
那么这里 的分布就可以看做是模糊核 和附加噪声 的联合分布, 这可以通过学习从先验随机变量 到 和 的映射来建模。
这样一来,PDM 就可以建模退化作用中的随机变量,并把退化作用与图片的内容进行解耦。学习好了 PDM 之后,PDM 可能更容易涵盖所有测试图像的各种退化,并防止 SR 模型过度拟合特定图像。PDM 可以作为一个数据生成器,并可以很容易地与现有的 SR 模型集成,以帮助它们提高应用程序的性能。
9.3 模糊分布建模
上式2中的退化过程包含线性的2步:
式中, 是不含噪声的模糊,下采样之后的结果。
直观上,这两个步骤是相互独立的,因为模糊核主要取决于相机镜头 (camera lens) 的属性,而噪声主要与传感器 (sensors) 的属性相关。因此,退化分布可以建模为:
这样, 和 的分布可以被独立地建模以表示 的分布。
为了建模模糊核 的分布, 作者定义多变量高斯分布 (Multi-dimensional Normal Distribution) , 并通过生成模型学习从 到模糊核 的映射。
其中, net 是以卷积网络为代表的生成模型。
不是一般性,作者首先考虑变化的模糊核:
式中, 是正态分布的维度, 是模糊核的尺寸, 是特征的空间维度, 在 的最后一层添加了 Softmax, 以确保模糊核 的每一行之和为1。通常, net 中卷积核的大小被设置为 3 , 这表明所学习的模糊核是空间相关的。否则, 如果所有卷积权重的空间大小都设为 , 那 么每个像素的模糊核都是独立的。
在大多数情况下, 模糊核 可以由空间不变核来近似, 也就是 的空间变化模糊核的特殊情况。我们有:
这种近似对于大多数数据集已经足够好了。
9.4 噪声分布建模
下面建模噪声 的分布, 之前的大多数工作把噪声建模成为一个加性白高斯噪声 (Additive White Gaussian Noise, AWGN), 与图像的内容 无关。在这种情况下, 噪声 的分布也可以用一个普通的生成模块来表示:
其中, net 是以卷积网络为代表的生成模型。
不是一般性,作者首先考虑变化的噪声:
式中, 是正态分布的维度, 是特征的通道数, 是特征的空间维度。
在 CMOS 图像传感器中,以 OV5640 为例,其感光阵列如下图1所示:
可以看到,感光阵列由红、绿、蓝三种感光点组成,B只识别蓝色光,R只识别红色光,Gb只识别绿色光,假如将这种每个感光像素点转换成数字信号后直接输出,就得到了 RAW 格式的图像数据。
而 RGB 是 RAW 格式数据经过一系列处理后得到的图像格式,当然,使用 CMOS 图像传感器话,传感器内部集成了处理电路,只需要配置寄存器就可以选择输出 RAW 格式还是 RGB 格式数据。
人眼能感知的色彩其实是红色、绿色、蓝色三种原色的各种组合,红绿蓝三种颜色的按照不同比例组合最终会呈现出不同的颜色。这种以三原色组合的图像格式是 RGB 格式,是目前应用最广的图像格式。RGB 有很多种格式,常用的有 RGB565,一共用 16bit 就可以表示三种分量;还有 RGB888,这一种格式需要 24bit 的数据来表示,正因为需要的 bit 数多,所以 RGB888 能表示的颜色比 RGB565 要多很多。如果对颜色精细度要求不是很高可以使用 RGB565,在很多计算过程中需要使用 RGB888。
图1:CMOS 图像传感器 OV5640 的感光阵列
所以说 RAW space 中的噪声其实可以建模成拍摄噪声 (shot noise) 和读取噪声 (read noise) 的混合。所以可以通过一个异质高斯分布来估计得到:
式中, 和 由相机的模拟和数字功放的增益决定。
拍摄噪声 (shot noise) 一般是泊松分布,它与接受的光信号的强度有关,发生在光子信号读取之后激发电信号的过程中。读取噪声 (read noise) 一般是高斯分布,它与接受的光信号的强度无关,一般发生在电信号从模拟信号到数字信号的 AD 转换器的过程中,由数字功放的增益决定。
因为 RGB space 的噪声 来自 RAW space 中的噪声 , 并且与图像内容有关, 所以噪声 应该通过条件生成得到:
通常, net 中卷积核的大小被设置为 , 这表明所学习的噪声是空间相关的。否则, 如果所有卷积权重的空间大小都设为 , 那么每个像素的噪声则都是独立的。
9.5 概率退化模型
上面两节介绍的模糊模块和噪声模块可以构造概率退化模型,用来生成训练所需的 HR-LR 图像对。
式中, 是参考的 HR 图, 是用于训练 SR 模型的一个训练数据对。
PDM 通过对抗训练优化, 希望合成的退化图 与真实世界的图像 更加接近。
作者一并假设噪声 具有0均值, 所以在目标函数中再添加这一项:
所以,退化模型总的目标函数是:
PDM 的优势是:
建模多种退化作用: PDM 可以建模多种退化作用,它允许 HR 图片退化成为多种 LR 图片。因此,对于相同数量的 HR 图像,PDM可以生成更多样的 LR 图像,并为 SR 模型提供更多的训练样本,这可以更好地覆盖测试图像的退化。因此,PDM 可以弥合训练和测试数据集之间的差距。
关于退化的先验知识可以容易地结合到 PDM 中: 例如,如果我们观察到在单个图像中模糊几乎是均匀的,那么我们可以调整 和 的形状,以便只学习空间不变的模糊核。这种先验知识有助于减少 PDM 的学习空间,并且可以鼓励使其更容易被训练。
9.6 利用概率退化模型构建盲超分框架
PDM 的框架如下图2所示,它可以和 SR 模型一起训练, 这样,PDM 就可以与任何 SR 模型集成,形成 Blind SR 的统一框架,称为 PDM-SR (或者 PDM-SRGAN,如果在 SR 模型的训练中也采用了对抗性损失和 perceptual loss)。
图2:PDM 框架:退化模型 (对应下图的 Degredation Model)
图2:PDM 框架:训练流程
9.7 PDM 训练过程
实验数据集: NTIRE2017 track2,NTIRE2018 track2 和 track4,NTIRE2020 track1 和 track2。
前三个数据集分别提供了用于训练的 800,800 和 3200对 HR-LR 图像和用于验证的 100 对 HR-LR 图像。因此,对于每个数据集,作者只使用前半部分 HR 图像,后半部分 LR 图像进行训练。对于 NTIRE2020 的 track1 和 track2,由于他们提供的训练样本已经不成对,所以我们直接使用所有图像进行训练。
图3:PDM 实验数据集
对所有的数据集, 的 hidden dimension 设置为 。模糊核的维度设置为 , 为了简单起见, 作者假设数据集中的模糊核是空间不变的。 的维度设置为 , 卷积核大小是 的。对抗训练使用 PatchGAN discriminator, 为了公平比较, 所有比较的方法共享相同的 SR 模型:EDSR 和 RRDB。
训练时将 HR 图片 crop 成128×128大小,将 LR 图片 crop 成32×32大小,batch size 设置为32,所有模型训练 2 × 105 steps。优化器为 Adam,学习率 2e-4,每隔 5000 steps,减小一半。
由于参考的 SR 模型包括 PSNR-oriented (即 SR 模型由 L1/L2 损失监督) 和 perceptual-oriented (即 SR 模型由 perceptual loss 监督)的方法,作者还提供了我们的方法的两个版本,即 PDM-SR 和 PDM-SRGAN。如下图4所示, 就 LPIPS 而言,PDM-SRGAN 的性能远远优于其他方法。就 PSNR 和 SSIM 而言,PDM-SR 也取得了最佳的整体性能。特别是在 SSIM 上,PDM-SR 远远优于其他所有方法。
图4:PDM-SR 和 PDM-SRGAN 的实验结果
下图5是 2017 Track2 的 0827x4 图片和 2018 Track2 的 0860x4m 图片的视觉比较结果。2017 Track2 的 0827x4 是一张非常模糊的图片,它的 SR 结果将可能具有不期望的伪像。可以看到,通过其他方法超分辨率的结果仍然模糊,而 PDM-SR 成功地消除了模糊。2018 Track2 的 0860x4m 受到复杂噪声的影响。如图所示,PDM-SR 的结果比其他方法更清晰,表明 PDM 也能更好地模拟随机噪声。
图5:2017 Track2 的 0827x4 图片和 2018 Track2 的 0860x4m 图片的视觉比较结果
作者进一步与 Real-ESRGAN 和 BSRGAN 等预训练模型进行了比较,这些方法都是 perceptual-oriented 的,因此作者这里使用 PDM-SRGAN 进行比较。超分模型和其他基线方法一样,都是 RRDB。如下图6所示,PDM-SRGAN 在 2020 Track1 实现了最高的 SSIM 和 LPIPS,在 2020 Track2 实现了最好的 NIQE。下图7是 2020 Track2 的图片 0010 和 0097 的视觉比较结果。可以看出,Real-ESRGAN 和 BSRGAN 等的方法产生的 SR 结果更可能过于平滑,而这些细节在 PDM-SRGAN 中得到更好的保留。
图6:PDM-SRGAN 与预训练模型比较
图7:2020 Track2 的图片 0010 和 0097 的视觉比较结果
下图8所示 2017 Track2 数据集合成的 LR 图和模糊核,可以看出它与高斯核有很大不同。学习到的模糊核是分散而非紧凑的。图9是 2018 Track4 数据集合成的 LR 图和模糊核,它呈现出对称的形态,且噪声是彩色的,与图片内容有关。
图8:2017 Track2 数据集合成的 LR 图和模糊核
图9:2018 Track4 数据集合成的 LR 图和模糊核
总结
本文作者将退化函数作为随机变量进行研究,并将其分布建模为模糊核 和随机噪声 的联合分布。所提出的概率退化模型 (PDM) 可以更好地将退化作用与图像内容解耦。与之前的退化模型相比,PDM 可以生成具有更大退化多样性的 HR-LR 训练样本,这可以生成更多种类的退化作用,并有助于提高 SR 模型在测试图像上的性能。此外,PDM 提供了一个灵活的退化作用,可以根据不同的实际情况进行调整。将来,作者可能会在 PDM 中添加一个额外的可学习的 JPEG 压缩模块,以进一步使其能够模拟 JPEG 压缩的退化作用。
编辑:黄飞
评论
查看更多