放下你的PhotoShop！无限图像编辑已开源！-电子发烧友网

0. 笔者个人体会

最近文本到图像的工作很火，生成的图像也非常真实。但还有个问题，现有工作效率比较低，往往只能接受一次text指令，再修改就要重新输入text重新生成，可能会影响原本的语义信息，这样导出的图像和最初图像可能差距甚远。

今天笔者将为大家分享一项最新开源的工作LEDITS++，可以一次输入无限多的编辑指令，一次性生成真实图像！而且LEDITS++是无参数方案，不需要微调和优化。不得不感慨AI发展之迅速，距离人们真实生活也越来越近了。

下面一起来阅读一下这项工作，文末附论文和代码链接~

1. 效果展示

先看一下具体效果，输入具体指令就可以直接产生对应效果。PS要想在几十秒内达到同等效果应该是有点困难。

LEDITS++很强调编辑前后的图像一致性，也就是仅修改图像的相关区域，保持原始图像的语义信息。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

代码已经开源了，官方主页也开放了交互式demo，感兴趣的读者可以上传自己的图像和文本指令尝鲜一下效果。

2. 具体原理是什么？

LEDITS++可以分为三个部分：（1）有效的图像反转；（3）多功能文本编辑；（3）图像变化的语义基础。

我们知道扩散模型生成图像是通过反转采样来进行的，重点是识别噪声。LEDITS++从DDPM反演中提取特征，并提出一种有效的反演方法，大大减少所需的步骤，同时降低重建误差。当将反向扩散过程公式化为SDE时，DDPM可以被视为一阶SDE解算器。使用高阶微分方程解算器可以更有效地解算，因此作者推导出一种新的更快技术------DPM-solver++反演。

在创建重建序列之后，可以通过一组编辑指令操纵噪声来编辑图像。根据有条件和无条件估计，作者分别设计了一个专门的引导项，既反映了编辑的方向，又最大化了对所需编辑效果的细粒度控制。

最后，LEDITS++还包括一个Mask项，由交叉注意层生成的Mask和噪声估计导出的Mask取交集计算得到。Mask可以捕捉与编辑概念相关的图像区域，对于多次编辑特别有效。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

3. 和其他SOTA方法对比如何？

不同编辑方法的指令对齐和图像相似度权衡的比较，侧重CLIP得分(越高越好)与LPIPS相似度(越低越好)，也就是图中越靠近左上角效果越好。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1089

浏览量
40600
AI

AI

+关注

关注
87

文章
31845

浏览量
270673
开源

开源

+关注

关注
3

文章
3421

浏览量
42783

原文标题：放下你的PhotoShop！无限图像编辑已开源！

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

SparseViT：以非语义为中心、参数高效的稀疏化视觉Transformer

背景简介随着图像编辑工具和图像生成技术的快速发展，图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影（操作痕迹），这些伪影可分为语义和非语义特征。因此目前几乎所有的

发表于 01-15 09:30 •137次阅读

开源鸿蒙技术分论坛在武汉成功举办

举行。本次论坛通过南北向开发赋能，融合前沿的行业案例经验，生动展现了开源鸿蒙在驱动技术创新与产业升级中的优势与无限潜能。开源技术引领变革，构建枝繁叶茂生态体系在万物智联的时代浪潮中，开源

发表于 12-24 13:38 •317次阅读

与鸿同行，探索无限！开源鸿蒙技术分论坛在武汉成功举办

。本次论坛通过南北向开发赋能，融合前沿的行业案例经验，生动展现了开源鸿蒙在驱动技术创新与产业升级中的优势与无限潜能。开源技术引领变革，构建枝繁叶茂生态体系在万物智联的

发表于 12-23 21:29 •402次阅读

高倍金相自动测量显微镜无限远光学系统

高倍金相自动测量显微镜无限远光学系统在无限远处形成图像，是通过在物镜与目镜之间的主镜筒中设置镜筒透镜，构建了一个能够形成中间图像的光学系统。并可以灵活添加各种辅助组件，丰富了显微镜的功

发表于 12-14 20:31 •425次阅读

字节发布SeedEdit图像编辑模型

近日，字节跳动公司在其豆包大模型团队的官方网站上，正式公布了其最新的通用图像编辑模型——SeedEdit。这款创新性的图像编辑模型，为用户提供了前所未有的便捷图像编辑体验。据官方介绍

发表于 11-12 10:43 •370次阅读

图像采集卡的接口类型有哪些？

图像采集卡又称图像捕获卡，是一种能获取数字视频图像信息并进行存储和播放的硬件设备。它的作用是将图像信号采集到计算机中，以数据文件的形式保存在硬盘上，是

发表于 10-24 17:07 •303次阅读

vim编辑器如何使用

Vim编辑器是一个功能强大的文本编辑器，它基于Vi进行改进，并增加了许多新特性。Vim编辑器的使用主要涉及其不同的工作模式及相应操作。以下是Vim编辑器的基本使用方法：一、Vim

发表于 08-30 14:58 •548次阅读

Matepad pro12.2 已上市半个月，但是还没有在开源网站看到该项目的开源信息，违背开源精神

Matepad pro12.2 已上市半个月，本人自己也购买了同款12+256的pad，想要同步学习下这款pad的一些体验还不错的功能点，但是目前为止还没有在开源网站看到该项目的开源信息，也查询不到

发表于 08-27 17:25

Adobe在Illustrator和Photoshop设计软件中引入新工具和生成性AI功能

Adobe正在其Illustrator和Photoshop设计软件中引入一些新工具和生成性AI功能，旨在帮助加快创意工作流程。Illustrator最引人注目的更新来自Adobe最新的Firefly

发表于 07-29 17:10 •957次阅读

esp32无限重启的原因？

esp32无限重启，重启记录显示 Software reset due to exception/panic，有谁知道这是什么原因重启吗？

发表于 06-25 08:13

微软AI新成果：将不可编辑PDF转化为可编辑文档

市面现有相关软件虽能将PDF转为可编辑版，但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》，其独特之处在于运用AI技术保持了字体、色彩、布局及图像格式等视

发表于 05-30 10:11 •868次阅读

苹果拟提升照片应用AI技术，以实现Photoshop级别编辑功能

苹果官方网站于今日更换了“起飞吧”页面LOGO，用户可通过鼠标涂抹掉部分或整个标识。此举被视为同时为推广新款Apple Pencil及增强后的编辑功能进行宣传。

发表于 05-07 17:18 •772次阅读

开放原子开源大赛—基于OpenHarmony的团结引擎应用开发赛正式启动！

所有开发者开放，只要完成注册并认证，即可报名参与。你将有机会深入实践OpenHarmony开源项目与Unity中国团结引擎，更有机会赢取丰厚的奖励与荣誉激励。赛事共设立了62个奖项，总奖金池高达45万元

发表于 03-13 10:45

谷歌模型怎么用PS打开文件和图片

）或ONNX模型（.onnx）等。这些模型文件是二进制的，并且是为特定的机器学习框架设计的，而不是为图像编辑软件如PS设计的。

发表于 02-29 18:25 •1582次阅读

谷歌模型怎么PS打开文件格式不变

要将谷歌模型与Photoshop结合使用，并保持文件格式不变，这通常涉及将谷歌模型生成的图像或图形导入到Photoshop中进行进一步编辑或处理。

发表于 02-29 18:09 •964次阅读

搜索历史

放下你的PhotoShop！无限图像编辑已开源！

评论

SparseViT：以非语义为中心、参数高效的稀疏化视觉Transformer

开源鸿蒙技术分论坛在武汉成功举办

与鸿同行，探索无限！开源鸿蒙技术分论坛在武汉成功举办

高倍金相自动测量显微镜无限远光学系统

字节发布SeedEdit图像编辑模型

图像采集卡的接口类型有哪些？

vim编辑器如何使用

Matepad pro12.2 已上市半个月，但是还没有在开源网站看到该项目的开源信息，违背开源精神

Adobe在Illustrator和Photoshop设计软件中引入新工具和生成性AI功能

esp32无限重启的原因？

微软AI新成果：将不可编辑PDF转化为可编辑文档

苹果拟提升照片应用AI技术，以实现Photoshop级别编辑功能

开放原子开源大赛—基于OpenHarmony的团结引擎应用开发赛正式启动！

谷歌模型怎么用PS打开文件和图片

谷歌模型怎么PS打开文件格式不变