0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

放下你的PhotoShop!无限图像编辑已开源!

3D视觉工坊 来源:3D视觉工坊 2023-12-10 10:09 次阅读

0. 笔者个人体会

最近文本到图像的工作很火,生成的图像也非常真实。但还有个问题,现有工作效率比较低,往往只能接受一次text指令,再修改就要重新输入text重新生成,可能会影响原本的语义信息,这样导出的图像和最初图像可能差距甚远。

今天笔者将为大家分享一项最新开源的工作LEDITS++,可以一次输入无限多的编辑指令,一次性生成真实图像!而且LEDITS++是无参数方案,不需要微调和优化。不得不感慨AI发展之迅速,距离人们真实生活也越来越近了。

下面一起来阅读一下这项工作,文末附论文和代码链接~

1. 效果展示

先看一下具体效果,输入具体指令就可以直接产生对应效果。PS要想在几十秒内达到同等效果应该是有点困难。

27892dc0-96ad-11ee-8b88-92fbcf53809c.png

LEDITS++很强调编辑前后的图像一致性,也就是仅修改图像的相关区域,保持原始图像的语义信息。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

27a9e4fc-96ad-11ee-8b88-92fbcf53809c.png

代码已经开源了,官方主页也开放了交互式demo,感兴趣的读者可以上传自己的图像和文本指令尝鲜一下效果。

2. 具体原理是什么?

LEDITS++可以分为三个部分:(1)有效的图像反转;(3)多功能文本编辑;(3)图像变化的语义基础。

我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提出一种有效的反演方法,大大减少所需的步骤,同时降低重建误差。当将反向扩散过程公式化为SDE时,DDPM可以被视为一阶SDE解算器。使用高阶微分方程解算器可以更有效地解算,因此作者推导出一种新的更快技术------DPM-solver++反演。

27cde406-96ad-11ee-8b88-92fbcf53809c.png

在创建重建序列之后,可以通过一组编辑指令操纵噪声来编辑图像。根据有条件和无条件估计,作者分别设计了一个专门的引导项,既反映了编辑的方向,又最大化了对所需编辑效果的细粒度控制。

27ef003c-96ad-11ee-8b88-92fbcf53809c.png

最后,LEDITS++还包括一个Mask项,由交叉注意层生成的Mask和噪声估计导出的Mask取交集计算得到。Mask可以捕捉与编辑概念相关的图像区域,对于多次编辑特别有效。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

2815c21c-96ad-11ee-8b88-92fbcf53809c.png

3. 和其他SOTA方法对比如何?

不同编辑方法的指令对齐和图像相似度权衡的比较,侧重CLIP得分(越高越好)与LPIPS相似度(越低越好),也就是图中越靠近左上角效果越好。

282ecd02-96ad-11ee-8b88-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1078

    浏览量

    40370
  • AI
    AI
    +关注

    关注

    87

    文章

    29665

    浏览量

    268004
  • 开源
    +关注

    关注

    3

    文章

    3210

    浏览量

    42293

原文标题:放下你的PhotoShop!无限图像编辑已开源!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Matepad pro12.2 上市半个月,但是还没有在开源网站看到该项目的开源信息,违背开源精神

    Matepad pro12.2 上市半个月,本人自己也购买了同款12+256的pad,想要同步学习下这款pad的一些体验还不错的功能点,但是目前为止还没有在开源网站看到该项目的开源信息,也查询不到
    发表于 08-27 17:25

    微软AI新成果:将不可编辑PDF转化为可编辑文档

    市面现有相关软件虽能将PDF转为可编辑版,但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》,其独特之处在于运用AI技术保持了字体、色彩、布局及图像格式等视
    的头像 发表于 05-30 10:11 585次阅读

    苹果拟提升照片应用AI技术,以实现Photoshop级别编辑功能

    苹果官方网站于今日更换了“起飞吧”页面LOGO,用户可通过鼠标涂抹掉部分或整个标识。此举被视为同时为推广新款Apple Pencil及增强后的编辑功能进行宣传。
    的头像 发表于 05-07 17:18 650次阅读

    开放原子开源大赛—基于OpenHarmony的团结引擎应用开发赛正式启动!

    所有开发者开放,只要完成注册并认证,即可报名参与。将有机会深入实践OpenHarmony开源项目与Unity中国团结引擎,更有机会赢取丰厚的奖励与荣誉激励。赛事共设立了62个奖项,总奖金池高达45万元
    发表于 03-13 10:45

    谷歌模型怎么用PS打开文件和图片

    )或ONNX模型(.onnx)等。这些模型文件是二进制的,并且是为特定的机器学习框架设计的,而不是为图像编辑软件如PS设计的。
    的头像 发表于 02-29 18:25 1327次阅读

    谷歌模型怎么PS打开文件格式不变

    要将谷歌模型与Photoshop结合使用,并保持文件格式不变,这通常涉及将谷歌模型生成的图像或图形导入到Photoshop中进行进一步编辑或处理。
    的头像 发表于 02-29 18:09 785次阅读

    诚邀报名|与同行——开源教育晨雾中的早行者

    价值更是显得崇高。 大约十年前,开源教育在中国以创客教育的方式开始了初步的探索。然而,直至现在开源教育的发展依旧显得初步,挑战与机遇并存,我们仍有很长的路要走。 当下,若你进入一家书店的网站,搜索“开源”“
    的头像 发表于 12-14 16:05 242次阅读

    jpg如何转psd格式?

    使用Adobe Photoshop这样的专业图像编辑软件来完成这个任务。Adobe Photoshop是业界最常用、功能最强大的图像编辑软件之一,它提供了丰富的功能和选项,用于
    的头像 发表于 12-09 16:09 2259次阅读

    免费开源图像修复工具lama-cleaner介绍

    Lama Cleaner 是由 SOTA AI 模型提供支持的免费开源图像修复工具。可以从图片中移除任何不需要的物体、缺陷和人,或者擦除并替换(powered by stable diffusion)图片上的任何东西。
    的头像 发表于 12-04 10:23 2603次阅读
    免费<b class='flag-5'>开源</b><b class='flag-5'>图像</b>修复工具lama-cleaner介绍

    linux使用vim新建并编辑文件

    是一个文本编辑器,在Linux系统中被广泛使用。它具有强大的功能和可定制性,并且支持各种编程语言。 二、 确认Vim安装 在开始使用Vim之前,需要确认在Linux系统中已经安装了Vim。可以在终端中输入以下命令检查Vim是否
    的头像 发表于 11-28 15:17 3025次阅读

    关于图像传感器图像质量的四大误区!踩过几个坑?

    关于图像传感器图像质量的四大误区!踩过几个坑?
    的头像 发表于 11-27 16:56 407次阅读
    关于<b class='flag-5'>图像</b>传感器<b class='flag-5'>图像</b>质量的四大误区!<b class='flag-5'>你</b>踩过几个坑?

    linux怎么执行vim编辑的程序

    在Linux中,可以通过以下步骤执行Vim编辑器中编写的程序: 打开终端或命令行界面。 使用Vim编辑器打开的程序文件。假设的程序文件
    的头像 发表于 11-26 15:45 1055次阅读

    文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

    AIGC 从去年 9 月到现在,我们能看到各种各样的模型和公司不断涌现。从最初大家使用 Stable Diffusion 来生成简单的图像,到后来用一些其它方法进行生成式图像编辑,后来甚至 Adobe Photoshop 支持使
    的头像 发表于 11-21 16:04 689次阅读
    文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

    基于几何分析的神经辐射场编辑方法

    神经辐射场作为近期一个广受关注的隐式表征方法,能合成照片级真实的多视角图像。但因为其隐式建模的性质,用户难以直观编辑神经辐射场建模对象的几何。面对这一问题,最新被IEEE TPAMI接收的论文
    的头像 发表于 11-20 16:56 518次阅读
    基于几何分析的神经辐射场<b class='flag-5'>编辑</b>方法

    资讯速递 | OpenHarmony领学课堂之《开源赋能》系列课程火热来袭!

    你想成为OpenHarmony开源社区的贡献达人吗? 你想更深度地参与OpenHarmony开源生态建设吗?   开源专家团队在直播间与不见不散~   E N D     关注我们,
    的头像 发表于 11-20 10:55 318次阅读
    资讯速递 | OpenHarmony领学课堂之《<b class='flag-5'>开源</b>赋能》系列课程火热来袭!