伯克利AI实验室开源图像编辑模型InstructPix2Pix，简化生成图像编辑并提供一致结果-电子发烧友网

来自伯克利人工智能研究（BAIR）实验室的研究人员开源深度学习模型 InstructPix2Pix，它可以遵循人类指令来编辑图像。InstructPix2Pix 在合成数据上进行训练，表现优于基线 AI 图像编辑模型。

BAIR 团队在最近举行的 2023 年 IEEE/CVF 计算机视觉和模式识别（CVPR）大会上展示了他们的工作成果。他们先是生成了一个合成训练数据集，其中的训练样本是成对的图像以及用于将第一幅图像转换为第二幅图像的编辑指令。该数据集用于训练图像生成扩散模型，该模型可以接受基于文本的指令来编辑图像。例如，给定一张骑马的人的图片和提示词“让她变成骑龙”，它会输出原始图片，但原来的马被替换了龙。BAIR 的研究人员的表示：

尽管模型完全是在合成样本上进行训练的，但它实现了对任意真实图像和人类自然语言指令的零样本泛化。我们的模型能够进行直观的图像编辑，可以遵循人类指令执行多种编辑：替换对象、改变图像风格、修改设置、艺术媒介等。

之前的 AI 图像编辑能力通常是进行风格转换，流行的文本到图像生成模型（如 DALL-E 和 Stable Diffusion）也支持图像到图像风格转换操作。然而，使用这些模型进行有针对性的编辑仍然具有挑战性。最近，InfoQ 报道了微软的 Visual ChatGPT，它可以调用外部工具来编辑图像，前提是提供编辑操作的文本描述。

为了训练 InstructPix2Pix，BAIR 首先创建了一个合成数据集。为此，团队在一个由输入文字说明、编辑指令和期望输出文字说明组成的人类文本样本的小数据集上对 GPT-3 进行了微调。然后，这个微调模型被给予一个大型的输入图像文字说明数据集，从中生成了超过 450k 次编辑和输出文字说明。然后，团队将输入和输出文字说明馈送到预训练的 Prompt-to-Prompt 模型中，该模型根据文字说明生成成对的相似图像。

InstructPix2Pix 的架构，图片来源：https://arxiv.org/abs/2211.09800

研究人员鉴于这个数据集训练了基于 Stable Diffusion 的 InstructPix2Pix。为了评估其性能，团队将其输出与基线模型 SDEdit 进行了比较。他们使用两个指标之间的权衡：一致性（即输入图像和编辑后图像的 CLIP 嵌入之间的余弦相似度）和方向相似性（即编辑后文字说明中的变化与编辑后图像的变化在多大程度上保持一致）。在实验中，对于给定的方向相似性值，InstructPix2Pix 产生的图像比 SDEdit 具有更高的一致性。

人工智能研究员吴恩达在他的深度学习新闻邮件组“The Batch”中评价了 InstructPix2Pix：

这项工作简化了生成和人造图像的编辑操作，并提供了更一致的结果。巧妙地利用现有模型，模型作者能够使用相对较少的人类标记样本在新任务上训练他们的模型。

InstructPix2Pix 的代码可在 GitHub 上获取，模型和基于 Web 的演示可在 Huggingface 上访问。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Web

Web

+关注

关注
2

文章
1255

浏览量
69322
人工智能

人工智能

+关注

关注
1791

文章
46820

浏览量
237460
模型

模型

+关注

关注
1

文章
3158

浏览量
48701
数据集

数据集

+关注

关注
4

文章
1205

浏览量
24635

原文标题：伯克利 AI 实验室开源图像编辑模型 InstructPix2Pix，简化生成图像编辑并提供一致结果

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

字节发布SeedEdit图像编辑模型

近日，字节跳动公司在其豆包大模型团队的官方网站上，正式公布了其最新的通用图像编辑模型——SeedEdit。这款创新性的图像编辑模型，为用户

发表于 11-12 10:43 •183次阅读

荣耀与智谱携手共建AI大模型联合实验室

近日，荣耀终端有限公司与北京智谱华章科技有限公司正式携手，共同宣布成立AI大模型技术联合实验室，并签署了战略合作协议。此次合作标志着双方在人工智能领域的深度合作迈入新阶段，共同致力于为用户带来前所未有的智能体验。

发表于 09-03 18:15 •934次阅读

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的

发表于 08-30 16:23 •1077次阅读

微软AI新成果：将不可编辑PDF转化为可编辑文档

市面现有相关软件虽能将PDF转为可编辑版，但易丧失原始布局。微软研究论文名为《从不可编辑文档生成可编辑文档的方法和系统》，其独特之处在于运用AI

发表于 05-30 10:11 •613次阅读

OpenAI发布图像检测分类器，可区分AI生成图像与实拍照片

据OpenAI介绍，初步测试结果表明，该分类器在辨别非AI生成图像与DALL·E 3生成图像时，

发表于 05-09 09:57 •417次阅读

KOALA人工智能图像生成模型问世

近日，韩国科学团队宣布研发出名为 KOALA 的新型人工智能图像生成模型，该模型在速度和质量上均实现了显著突破。KOALA 能够在短短 2

发表于 03-05 10:46 •730次阅读

谷歌模型怎么用PS打开文件和图片

）或ONNX模型（.onnx）等。这些模型文件是二进制的，并且是为特定的机器学习框架设计的，而不是为图像编辑软件如PS设计的。

发表于 02-29 18:25 •1356次阅读

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大，而Stable Diffusion是许多其他文

发表于 02-19 16:03 •889次阅读

微软为新闻编辑行业推出AI工具

近日，微软宣布与全球多家知名新闻机构展开紧密合作，共同探索并推动生成式AI在新闻编辑室中的创新应用。微软表示，将全力支持新闻机构优化AI技术在新闻采编和日常业务实践中的运用，并致力于培

发表于 02-18 11:08 •665次阅读

上海AI实验室发布新一代书生·视觉大模型

近日，上海人工智能实验室（上海AI实验室）联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型（InternVL）。

发表于 02-04 11:25 •1048次阅读

谷歌推出图像生成新工具ImageFX，提升图像质量

作为实验室的新兴工具，ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验，该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。

发表于 02-02 14:18 •610次阅读

科学家如何加速下一代微电子技术的发展

扬声器、救生医疗设备和电动汽车等几乎任何用途的微小硅组件，而一个由劳伦斯伯克利国家实验室（伯克利实验室）领导的新中心可以加速微芯片的下

发表于 01-23 13:42 •335次阅读

三星AI手机有多神？引入智能显示，自动调节亮度、颜色…

Galaxy S24系列配备了Galaxy AI（设备端人工智能）以及三星Gauss（高斯）等生成式人工智能。换句话说，关键功能可以通过设备上的人工智能来解决，而无需联系外部服务器。生成式人工智能支持需要更多计算的任务，例如高级

发表于 01-19 15:49 •1164次阅读

放下你的PhotoShop！无限图像编辑已开源！

我们知道扩散模型生成图像是通过反转采样来进行的，重点是识别噪声。LEDITS++从DDPM反演中提取特征，并提出一种有效的反演方法，大大减少

发表于 12-10 10:09 •839次阅读

jpg如何转psd格式？

jpg如何转psd格式？将JPG格式转换为PSD格式是一个比较简单的过程，只需使用合适的图像编辑软件即可完成。在本文中，我将提供详尽、详实、细致的步骤，帮助你完成这个转换过程。首先，我们需要

发表于 12-09 16:09 •2370次阅读

搜索历史

伯克利AI实验室开源图像编辑模型InstructPix2Pix，简化生成图像编辑并提供一致结果

评论

字节发布SeedEdit图像编辑模型

荣耀与智谱携手共建AI大模型联合实验室

Freepik携手Magnific AI推出AI图像生成器

微软AI新成果：将不可编辑PDF转化为可编辑文档

OpenAI发布图像检测分类器，可区分AI生成图像与实拍照片

KOALA人工智能图像生成模型问世

谷歌模型怎么用PS打开文件和图片

Stability AI试图通过新的图像生成人工智能模型保持领先地位

微软为新闻编辑行业推出AI工具

上海AI实验室发布新一代书生·视觉大模型

谷歌推出图像生成新工具ImageFX，提升图像质量

科学家如何加速下一代微电子技术的发展

三星AI手机有多神？引入智能显示，自动调节亮度、颜色…

放下你的PhotoShop！无限图像编辑已开源！

jpg如何转psd格式？