0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于矢量量化字典与双解码器的人脸盲修复网络

jf_pmFSk4VX 来源:GiantPandaCV 2023-03-08 09:50 次阅读

尽管生成式面部先验和结构化面部先验最近已经证明了可以生成高质量的人脸盲修复结果,稳定、可靠生成更细粒度的脸部细节仍然是一个具有挑战性的问题。这篇文章受最近基于字典的方法和基于矢量量化的方法启发,提出了一种 基于矢量量化(VQ-based)的人脸盲修复方法VQFR。VQFR从高质量的图像中抽取特征,构建low-level特征库从而恢复逼真的面部细节。

这篇工作重点关注如下两个问题:

1.codebook中每个code对应的原图patch大小会极大影响人脸网络修复结果的质量与保真度权衡,而实际落地应用中,质量与保真度需要做到良好的平衡以获得最佳视觉效果。

2.原图退化特征需要与来自codebook的高质量特征做融合,融合过程中,如何做到高质量特征不被退化特征所干扰而导致性能降低?

详细介绍引入

人脸恢复的目标是恢复低质量(LQ)面孔并纠正未知退化,例如噪声、模糊、下采样引起的退化等。在实际情况下,此任务变得更具挑战性,因为存在更复杂的退化、多样的面部姿势和表情。以前的作品通常利用特定于人脸的先验,包括几何先验、生成先验和参考先验。具体来说,几何先验通常包括面部标志、面部解析图和面部组件热图。它们可以为恢复准确的面部形状提供全局指导,但不能帮助生成逼真的细节。

此外,几何先验是从退化图像中估计出来的,因此对于具有严重退化的输入变得不准确。这些特性促使研究人员寻找更好的先验。最近的人脸修复工作开始研究生成先验(GAN-Prior),并取了优异的性能。这些方法通常利用预先训练的人脸生成对抗网络(例如StyleGAN)的强大生成能力来生成逼真的纹理。这些方法通常将退化的图像投影回GAN潜在空间,然后使用预先训练的生成器解码高质量(HQ)人脸结果。

尽管基于GAN先验的方法最初从整体上讲具有良好的恢复质量,但仍然无法生成细粒度的面部细节,特别是精细的头发和精致的面部组件。这是因为训练有素的GAN模型,其潜在空间仍然是不够完善的。基于参考的方法(Reference-based methods)—探索了高质量的指导面孔或面部组件字典来解决面部恢复问题。

DFDNet是该类别中的代表方法,它不需要访问相同身份的面孔,就可以产生高质量的结果。它明确建立高质量的“纹理库”,用于几个面部组件,然后用字典中最近的高质量面部组件替换退化的面部组件。这种离散的替换操作可以直接弥合低质量面部部件与高质量部件之间的差距,因此具有提供良好面部细节的潜力。然而,DFDNet中的面部组件字典仍然有两个缺点。

1)它使用预先训练的VGGFace网络进行离线生成,该网络是为识别任务优化的,明显并不适合恢复任务。

2)它只关注几个面部组件(即眼睛、鼻子和嘴巴),但不包括其他重要区域,例如头发和皮肤。

面部组件字典的局限性促使VQFR探索矢量量化(VQ)码本,这是一个为所有面部区域构建的字典。VQFR提出的人脸恢复方法VQFR既利用字典方法又利用GAN训练,但不需要任何几何或GAN先验。与面部组件字典相比,VQ码本可以提供更全面的低层特征库,而不局限于有限的面部组件。

它也是通过面部重建任务以端到端的方式来学习的。此外,矢量量化的机制使其在不同的退化情况下更加稳健。尽管简单地应用VQ码本可以取得不错的效果,但要实现良好的结果也不容易。后续进一步介绍了两个特殊的网络设计以应对前文提到的两个problems,这将帮助VQFR在细节生成和身份保留方面都超越先前的方法。

10904e54-bcb1-11ed-bfe3-dac502259ad0.png

具体来说,为了生成逼真的细节,作者发现选择适当的压缩补丁大小至关重要,它表示codebook的一个code“由多大的补丁表示”。如图2所示,较大的patch可以带来更好的视觉质量,但是真实度却会下降。经过全面的调查,我们建议输入图像大小512x512时,32大小的patch size最合适。然而,这种选择只是在质量和真实度之间进行权衡。

表情和身份也可能会因适当的压缩补丁大小而有很大的变化。一个直接的解决方案是将输入特征与不同的解码器层融合,这与GFP-GAN中的操作类似。尽管输入特征可以带来更多的真实度信息,但它们也会干扰从VQ代码本生成的逼真细节特征。这个问题引出了作者的第二个网络设计:并行解码器。

具体而言,并行解码器结构包括纹理解码器和主解码器。VQFR的纹理解码器仅接收来自VQ代码本的潜在表示的信息,而主解码器将纹理解码器中的特征做变换以匹配退化输入的需保留的特征。

为了避免高质量细节的损失并更好地匹配退化的面部,VQFR在主解码器中进一步采用了具有可变卷积的纹理变换模块。通过VQ codebook作为面部字典和并行解码器设计,VQFR可以实现更高质量的面部细节修复,同时尽可能得保留面部恢复的真实度。

VQFR方法概述

10cccf8c-bcb1-11ed-bfe3-dac502259ad0.png

VQFR模型架构图。VQFR由一个编码器组成,用于映射退化的人脸进入潜在和并行解码器以利用 HQ 代码和输入功能。编码器和解码器由矢量量化模型和预训练的 HQ 码本,将编码的latent feature替换为 HQ 代码

Vector-Quantized Codebook最早在VQVAE中被引入,旨在学习离散的先验来编码图像。VQFR中的codebook部分与VQGAN中的基本一致。VQGAN 主要是采用了感知损失和对抗性损失以鼓励具有更好感知质量的重建。VQFR方法主要基于以下两个观察来提高修复性能:

通过采用合适的压缩补丁大小,可以用仅由高品质人脸训练的VQ码本来去除LQ人脸的退化。

在训练恢复任务时,在改进的细节纹理和保真度变化之间需要保持一个平衡。

针对观察现象一,VQFR采用合适的f大小来控制codebook效果,f取32最佳。针对观察现象二,VQFR提出利用双分支架构的decoder来逐渐将高质量纹理特征补充进待修复特征中,texture warp module利用可变形卷积很好的实现了这一目的。反观之前的相似工作,之前工作中单一分支decoder架构很难较好的融合低质特征和高质量特征,这导致了恢复性能不佳。

实验

10ede410-bcb1-11ed-bfe3-dac502259ad0.png

VQFR在CelebA-Test数据集和LFW数据集上均取得了领先的性能结果,值得关注的是其PSNR/SSIM指标并不十分出色,但是FID、NIQE、LMD指标非常不错,视觉效果也体现了该方法的优越性。

真实度与保真度的平衡

1124fc2a-bcb1-11ed-bfe3-dac502259ad0.png

可以看出VQFR取得了非常不错的真实度与保真度的平衡,实验效果很出色。

总结

本文提出的VQFR是一种性能非常不错的人脸盲修复方法,文章思路非常清晰,明确点出核心motivation和为解决的相关问题,最后的实验结果也非常精彩,很好的证明了方法的基本理论与出发点,更多细节建议大家参考原文。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1131

    浏览量

    40678
  • GaN
    GaN
    +关注

    关注

    19

    文章

    1919

    浏览量

    73003
  • 生成器
    +关注

    关注

    7

    文章

    313

    浏览量

    20977
  • GFP
    GFP
    +关注

    关注

    0

    文章

    5

    浏览量

    1403

原文标题:ECCV'22 Oral|VQFR|基于矢量量化字典与双解码器的人脸盲修复网络

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    怎么实现ffmpeg解码器到龙芯3B的移植?

    本文实现了ffmpeg解码器到龙芯3B的移植,并针对龙芯3B实现了对向量扩展指令支持的特点,对ffmpeg解码器进行了手工向量化
    发表于 06-02 06:57

    基于Hopfield神经网络的图像矢量量化

    矢量量化是图像压缩的重要方法。论文提出了基于Hopfield 神经网络的图像矢量量化方法,该方法首先构造聚类表格;然后聚类表格按离散Hopfield 神经网络串行方式运行;最后根据
    发表于 07-11 08:19 19次下载

    基于DTMF的解码器设计

    本文介绍了DTMF 解码芯片MT8870 的功能和特点,给出了在解码器中与89C51 单片机的接口电路,说明了解码器的工作原理抗干扰措施。关键词:单片机抗干扰 DTMF 解码监控在一
    发表于 08-21 09:42 33次下载

    基于小波变换与矢量量化的图像压缩研究

    离散小波变换(DWT) 在图像压缩方面的研究目前国内外已经取得了令人瞩目的成就,小波变换和矢量量化相结合在图像处理方面的应用近几年已成为人们的研究热点, 但是由于离散小波
    发表于 12-07 11:22 14次下载

    一种增强的LPC参数多级矢量量化技术

    为充分利用码本的级间相关性,提出了一种联合码本优化多级矢量量化(JCO-MSVQ)码本设计方法。每次迭代时,先将训练矢量对码字进行聚类,再对各级码本进行联合优化,利用条件期
    发表于 07-05 16:35 14次下载

    基于矢量量化编码的数据压缩算法的研究与实现

    基于矢量量化编码的数据压缩算法的研究与实现 As the rapid development of communications and information technology, data
    发表于 06-16 08:32 1775次阅读

    网络视频编解码器5000

    网络视频编解码器5000
    发表于 12-23 02:20 0次下载

    网络视频编解码器H.264

    网络视频编解码器H.264
    发表于 12-23 02:22 0次下载

    基于Gabor特征与投影字典的人脸识别算法

    为了提高人脸的识别率及其识别速度,提出了一种基于Gabor特征与投影字典对学习的人脸识别算法。由于Gabor特征对表情、光照和角度等变化具有较强的鲁棒性,首先提取人脸图像多方向多尺度的
    发表于 12-05 09:07 0次下载

    基于TMS320DM642的最大熵矢量量化实现

    的熵最大化,从而确保在没有先验知识的情况下不会造成太多量化误差;另一方面则考虑了矢量集合在时间空间上的分布关系。本文在TMS320DM642处理上实现了这种算法,并进行了一系列的算法和程序层的优化。在基于图像的目标识别应用中的
    发表于 02-28 15:56 0次下载

    基于多级矢量量化实现优化LSF参数码本的设计

    矢量量化(Vector Quantization)是一种极其重要的信号压缩方法,广泛应用于语音、图像信号压缩等领域。信息论的一个分支——“率-畸变理论”指出,无论对于何种信息源,即使是无记忆的信息源
    的头像 发表于 05-14 07:51 2872次阅读
    基于多级<b class='flag-5'>矢量量化</b>实现优化LSF参数码本的设计

    高清解码器的作用

    高清解码器(xunwei)的主要作用在于接收前端高清编码图像或网络摄像头信号并解码,然后通过自身的各种视频输出接口,如HDMI、DVI、SDI、VGA、BNC输出显示到显示设备上。编码
    的头像 发表于 12-10 15:47 1.3w次阅读
    高清<b class='flag-5'>解码器</b>的作用

    压缩感知中的联合信源信道矢量量化

    进行解码。为此,本文研究了矢量量化解码器对的优化设计问题,通过最小化端到端均方误差(MSE)来解决这一问题,得到了MSE性能的理论下界,并通过迭代算法提出了一种实用的编解码器设计方案
    发表于 11-05 08:00 0次下载
    压缩感知中的联合信源信道<b class='flag-5'>矢量量化</b>

    一种基于变分自编码的人脸图像修复方法

    基于卷积神经网络的人脸图像修复技术在刑事侦破、文物保护及影视特效等领域有着重要的应用。但现有方法存在着图像修复结果不够清晰以及结果多样化不足等缺点,为此,提出了一种基于变分自编码
    发表于 04-21 10:51 10次下载
    一种基于变分自编码<b class='flag-5'>器</b><b class='flag-5'>的人脸</b>图像<b class='flag-5'>修复</b>方法

    解码器认证

    解码器认证
    发表于 05-17 21:18 2次下载
    <b class='flag-5'>解码器</b>认证