0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CLE Diffusion:可控光照增强扩散模型

CVer 来源:CVer公众号 2023-09-11 17:20 次阅读

本文介绍了由北交大、UT Austin、A*Star团队提出的基于扩散模型的可控低光增强方法,论文被ACM MM 2023收录。

6a480ee8-4ff3-11ee-a25d-92fbcf53809c.jpg

CLE Diffusion: Controllable Light Enhancement Diffusion Model 论文:arxiv.org/abs/2308.06725 代码:github.com/YuyangYin/CLEDiffusion 主页:yuyangyin.github.io/CLEDiffusion/ 在CVer微信公众号后台回复:CLE,可以下载本论文pdf Introduction

低光图像增强技术近年来受到了广泛的关注,目前的方法通常假设一个理想的增亮程度,对图像整体进行均匀的增强,同时也限制了用户的可控性。为了解决这个问题,本文提出了可控光照增强扩散模型(Controllable Light Enhancement Diffusion Model),可以让用户输入所需的增亮级别,并利用SAM模型,来实现交互友好的区域可控增亮。如图演示效果,用户可以通过简单的点击来指定增亮的区域。

6a6f1196-4ff3-11ee-a25d-92fbcf53809c.jpg

Method

本文提出了新型的可控光照增强框架,主要采用了条件扩散模型来控制任意区域的任意亮度增强。通过亮度控制模块(Brightness Control Module)将亮度信息信息融入Diffusion网络中,并且设计了和任务适配的条件控制信息和损失函数来增强模型的能力。同时本文使用了Mask输入和SAM模型(Segment-Anything Model)来进一步增强可控性,使得用户可以通过简单的点击形式实现任意区域的增亮。整体的框架如下图所示:

6a8b2c32-4ff3-11ee-a25d-92fbcf53809c.jpg

条件控制扩散模型

6aa04e8c-4ff3-11ee-a25d-92fbcf53809c.png

亮度控制板块

为了高效的控制亮度信息,本文采用了classifier-free guidance(CFG)方法。CFG采用同时训练条件扩散模型(conditional diffusion model)和无条件扩散模型(unconditional diffusion model)的方式来实现。在本任务中,将亮度值(brightness level)视作class label,由于亮度具有连续性,我们的class label也是连续的,可以实现更精细的亮度调节。对于条件扩散模型,本文通过计算normal-light image的平均亮度λ,然后通过orthogonal matrix将其在编码成illumintion embedding。然后通过FiLM layer将其注入到UNet的feature map中。对于无条件扩散模型,本文将illumintion embedding的值设置为0。实验中为了提升采样速度,采用DDIM采样的办法,因此总体的算法流程可以总结为:

6abadf04-4ff3-11ee-a25d-92fbcf53809c.jpg

区域控制增亮

在实际增亮过程中,用户相比于全局增亮图片其实更加关注区域的亮度控制,本文采用了Mask-CLE Diffusion来解决这个问题。首先采样了一批羽化边缘的随机mask,通过将normal-light image和mask混合得到了一个新的合成数据集。然后将mask信息拼接到扩散模型的输入中,训练得到新的增亮模型。SAM(Segment-Anything Model)可以实现任意图片的分割。在SAM的帮助下,Mask-CLE Diffusion提供了更好的用户交互体验,可以让用户通过点击的形式获得指定区域的mask并进行增亮。

辅助损失函数

6acee706-4ff3-11ee-a25d-92fbcf53809c.png

Expriment

New Metric

目前的大部分指标通常假设理想的亮度值,但对于不同亮度的图片质量比较困难。如下图所示,PSNR和SSIM通常随着亮度变化呈现V字形的变换,而LPIPS会呈现倒V型。因此本文希望提出一个新的指标,可以衡量不同亮度下的图片质量。

6ae2bde4-4ff3-11ee-a25d-92fbcf53809c.jpg

本文发现可以用color map来对亮度进行归一化,之后通过Canny边缘提取算子来衡量细节信息,最后采用LPIPS函数来衡量高频质量。新的指标可以命名为Light-IndependentLPIPS,表示为:

6b038aec-4ff3-11ee-a25d-92fbcf53809c.png

LOL和Mit-Adobe FiveK数据集上的表现

评测指标的比较:

6b14363a-4ff3-11ee-a25d-92fbcf53809c.jpg

LOL数据集上的可视化比较:

6b36cdf8-4ff3-11ee-a25d-92fbcf53809c.jpg

Mit-Adobe FiveK数据集上的可视化比较:

6b4a05da-4ff3-11ee-a25d-92fbcf53809c.jpg

区域亮度增强

给定用户感兴趣的区域,可以实现任意亮度的增强。对比于过往低光增强方法MAXIM(CVPR 2022 Oral),具有更强的可控性和增亮效果。

6a6f1196-4ff3-11ee-a25d-92fbcf53809c.jpg

6b7601d0-4ff3-11ee-a25d-92fbcf53809c.jpg

全局亮度增强

6ba11db6-4ff3-11ee-a25d-92fbcf53809c.png

6bd21f60-4ff3-11ee-a25d-92fbcf53809c.jpg

和其他亮度可控方法的比较

ReCoRo只能实现在low-light到well-light之间的亮度增强,而CLE Diffusion有更广的编辑空间。

6bee322c-4ff3-11ee-a25d-92fbcf53809c.jpg

在VE-LOL数据集上的比较

6c0cf96e-4ff3-11ee-a25d-92fbcf53809c.jpg

在正常光照数据集上的比较

6c2790da-4ff3-11ee-a25d-92fbcf53809c.jpg

在分割模型上的表现

6c3d2a3a-4ff3-11ee-a25d-92fbcf53809c.jpg

总结

CLE Diffusion提出了一种新型的扩散模型框架来实现可控的光照增强。方法主要将亮度信息编码,利用条件扩散模型来实现可控的亮度增强。并且借助SAM模型,让用户可以选择感兴趣的区域进行增亮。大量的实验表明,方法在定量和定性上都有优异的表现。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4304

    浏览量

    62429
  • 模型
    +关注

    关注

    1

    文章

    3171

    浏览量

    48711
  • 图像增强
    +关注

    关注

    0

    文章

    54

    浏览量

    10026

原文标题:ACM MM 2023 | CLE Diffusion:可控光照增强扩散模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于扩散模型的图像生成过程

    等很难用文本指定。   最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本到图像生成」的低成本解决方案,支持现有的预训练扩散模型及其低秩自适应(
    的头像 发表于 07-17 11:00 2653次阅读
    基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的图像生成过程

    Stable Diffusion的完整指南:核心基础知识、制作AI数字人视频和本地部署要求

    Stable Diffusion是一种扩散模型diffusion model)的变体,叫做“潜在扩散
    的头像 发表于 09-18 10:06 2284次阅读
    Stable <b class='flag-5'>Diffusion</b>的完整指南:核心基础知识、制作AI数字人视频和本地部署要求

    Stable Diffusion采样速度翻倍!仅需10到25步的扩散模型采样算法

    然而,扩散模型在使用上最大的问题就是其极慢的采样速度。模型采样需要从纯噪声图片出发,一步一步不断地去噪,最终得到清晰的图片。在这个过程中,模型必须串行地计算至少 50 到 100 步才
    的头像 发表于 11-21 11:55 1843次阅读

    基于扩散模型的视频合成新模型,加特效杠杠的!

    近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图像指定的任何风格,可将现有视频转化为新视频。
    的头像 发表于 03-24 10:43 1030次阅读

    使用OpenVINO™在算力魔方上加速stable diffusion模型

    Stable Diffusion 是 stability.ai 开源的 AI 图像生成模型,实现输入文字,生成图像的功能。Stable Diffusion 将 AI 图像生成提升到了全新高度,将引发媒体创作领域的革命。
    的头像 发表于 05-12 09:10 1397次阅读
    使用OpenVINO™在算力魔方上加速stable <b class='flag-5'>diffusion</b><b class='flag-5'>模型</b>

    开源了!UniControl:可控视觉生成的统一扩散模型

    现有的可控图片生成模型都是针对单一的模态进行设计,然而 Taskonomy [3] 等工作证明不同的视觉模态之间共享特征和信息,因此本文认为统一的多模态模型具有巨大的潜力。
    的头像 发表于 06-08 15:01 619次阅读
    开源了!UniControl:<b class='flag-5'>可控</b>视觉生成的统一<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    基于一种移动端高性能 Stable Diffusion 模型

      Stable Diffusion (SD)是当前最热门的文本到图像(text to image)生成扩散模型。尽管其强大的图像生成能力令人震撼,一个明显的不足是需要的计算资源巨大,推理速度很慢
    的头像 发表于 06-12 10:14 757次阅读
    基于一种移动端高性能 Stable <b class='flag-5'>Diffusion</b> <b class='flag-5'>模型</b>

    iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了

    近日,Snap 研究院推出最新高性能 Stable Diffusion 模型,通过对网络结构、训练流程、损失函数全方位进行优化,在 iPhone 14 Pro 上实现 2 秒出图(512x512
    的头像 发表于 06-12 15:25 745次阅读
    iPhone两秒出图,目前已知的最快移动端Stable <b class='flag-5'>Diffusion</b><b class='flag-5'>模型</b>来了

    英特尔研究院发布全新AI扩散模型,可根据文本提示生成360度全景图

    英特尔研究院宣布与Blockade Labs合作发布LDM3D(Latent Diffusion Model for 3D)模型,这一全新的扩散模型使用生成式AI创建3D视觉内容。LD
    的头像 发表于 06-30 19:50 332次阅读

    深入浅出扩散模型(Diffusion Model)系列:基石DDPM

    具备了产出逼真图片的能力,模型才可能在下一步中去学习语义信息(guidance),进一步产生符合人类意图的图片。而DDPM的本质作用,就是学习训练数据的分布,产出尽可能符合训练数据分布的真实图片。所以,它也成为后续文生图类扩散模型
    的头像 发表于 08-18 16:21 901次阅读
    深入浅出<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>(<b class='flag-5'>Diffusion</b> Model)系列:基石DDPM

    如何加速生成2 PyTorch扩散模型

    加速生成2 PyTorch扩散模型
    的头像 发表于 09-04 16:09 1051次阅读
    如何加速生成2 PyTorch<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>

    DDFM:首个使用扩散模型进行多模态图像融合的方法

    近来去噪扩散概率模型 Denoising diffusion probabilistic model (DDPM)在图像生成中获得很多进步,通过对一张noise-corrupted图像恢复为干净图像的
    的头像 发表于 09-19 16:02 4198次阅读
    DDFM:首个使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>进行多模态图像融合的方法

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    扩散模型diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解
    的头像 发表于 10-02 10:45 793次阅读
    NeurIPS 2023 | <b class='flag-5'>扩散</b><b class='flag-5'>模型</b>解决多任务强化学习问题

    谷歌新作UFOGen:通过扩散GAN实现大规模文本到图像生成

    扩散模型和 GAN 的混合模型最早是英伟达的研究团队在 ICLR 2022 上提出的 DDGAN(《Tackling the Generative Learning Trilemma with Denoising
    的头像 发表于 11-21 16:02 587次阅读
    谷歌新作UFOGen:通过<b class='flag-5'>扩散</b>GAN实现大规模文本到图像生成

    扩散模型的理论基础

    扩散模型的迅速崛起是过去几年机器学习领域最大的发展之一。在这本简单易懂的指南中,学习你需要知道的关于扩散模型的一切。
    的头像 发表于 10-28 09:30 166次阅读
    <b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的理论基础