0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

伯克利AI实验室开源图像编辑模型InstructPix2Pix,简化生成图像编辑并提供一致结果

jf_WZTOguxH 来源:AI前线 2023-08-28 15:45 次阅读

来自伯克利人工智能研究(BAIR)实验室的研究人员开源深度学习模型 InstructPix2Pix,它可以遵循人类指令来编辑图像。InstructPix2Pix 在合成数据上进行训练,表现优于基线 AI 图像编辑模型。

BAIR 团队在最近举行的 2023 年 IEEE/CVF 计算机视觉和模式识别(CVPR)大会上展示了他们的工作成果。他们先是生成了一个合成训练数据集,其中的训练样本是成对的图像以及用于将第一幅图像转换为第二幅图像的编辑指令。该数据集用于训练图像生成扩散模型,该模型可以接受基于文本的指令来编辑图像。例如,给定一张骑马的人的图片和提示词“让她变成骑龙”,它会输出原始图片,但原来的马被替换了龙。BAIR 的研究人员的表示:

尽管模型完全是在合成样本上进行训练的,但它实现了对任意真实图像和人类自然语言指令的零样本泛化。我们的模型能够进行直观的图像编辑,可以遵循人类指令执行多种编辑:替换对象、改变图像风格、修改设置、艺术媒介等。

之前的 AI 图像编辑能力通常是进行风格转换,流行的文本到图像生成模型(如 DALL-E 和 Stable Diffusion)也支持图像到图像风格转换操作。然而,使用这些模型进行有针对性的编辑仍然具有挑战性。最近,InfoQ 报道了微软的 Visual ChatGPT,它可以调用外部工具来编辑图像,前提是提供编辑操作的文本描述。

为了训练 InstructPix2Pix,BAIR 首先创建了一个合成数据集。为此,团队在一个由输入文字说明、编辑指令和期望输出文字说明组成的人类文本样本的小数据集上对 GPT-3 进行了微调。然后,这个微调模型被给予一个大型的输入图像文字说明数据集,从中生成了超过 450k 次编辑和输出文字说明。然后,团队将输入和输出文字说明馈送到预训练的 Prompt-to-Prompt 模型中,该模型根据文字说明生成成对的相似图像。

d051acec-4564-11ee-a2ef-92fbcf53809c.jpg

InstructPix2Pix 的架构,图片来源:https://arxiv.org/abs/2211.09800

研究人员鉴于这个数据集训练了基于 Stable Diffusion 的 InstructPix2Pix。为了评估其性能,团队将其输出与基线模型 SDEdit 进行了比较。他们使用两个指标之间的权衡:一致性(即输入图像和编辑后图像的 CLIP 嵌入之间的余弦相似度)和方向相似性(即编辑后文字说明中的变化与编辑后图像的变化在多大程度上保持一致)。在实验中,对于给定的方向相似性值,InstructPix2Pix 产生的图像比 SDEdit 具有更高的一致性。

人工智能研究员吴恩达在他的深度学习新闻邮件组“The Batch”中评价了 InstructPix2Pix:

这项工作简化了生成和人造图像的编辑操作,并提供了更一致的结果。巧妙地利用现有模型,模型作者能够使用相对较少的人类标记样本在新任务上训练他们的模型。

InstructPix2Pix 的代码可在 GitHub 上获取,模型和基于 Web 的演示可在 Huggingface 上访问。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Web
    Web
    +关注

    关注

    2

    文章

    1255

    浏览量

    69322
  • 人工智能
    +关注

    关注

    1791

    文章

    46820

    浏览量

    237460
  • 模型
    +关注

    关注

    1

    文章

    3158

    浏览量

    48701
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24635

原文标题:伯克利 AI 实验室开源图像编辑模型 InstructPix2Pix,简化生成图像编辑并提供一致结果

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    字节发布SeedEdit图像编辑模型

    近日,字节跳动公司在其豆包大模型团队的官方网站上,正式公布了其最新的通用图像编辑模型——SeedEdit。这款创新性的图像编辑模型,为用户
    的头像 发表于 11-12 10:43 183次阅读

    荣耀与智谱携手共建AI模型联合实验室

    近日,荣耀终端有限公司与北京智谱华章科技有限公司正式携手,共同宣布成立AI模型技术联合实验室,并签署了战略合作协议。此次合作标志着双方在人工智能领域的深度合作迈入新阶段,共同致力于为用户带来前所未有的智能体验。
    的头像 发表于 09-03 18:15 934次阅读

    Freepik携手Magnific AI推出AI图像生成

    近日,设计资源巨头Freepik携手Magnific AI,共同推出了革命性的AI图像生成器——Freepik Mystic,这里程碑式的
    的头像 发表于 08-30 16:23 1077次阅读

    微软AI新成果:将不可编辑PDF转化为可编辑文档

    市面现有相关软件虽能将PDF转为可编辑版,但易丧失原始布局。微软研究论文名为《从不可编辑文档生成编辑文档的方法和系统》,其独特之处在于运用AI
    的头像 发表于 05-30 10:11 613次阅读

    OpenAI发布图像检测分类器,可区分AI生成图像与实拍照片

    据OpenAI介绍,初步测试结果表明,该分类器在辨别非AI生成图像与DALL·E 3生成图像时,
    的头像 发表于 05-09 09:57 417次阅读

    KOALA人工智能图像生成模型问世

    近日,韩国科学团队宣布研发出名为 KOALA 的新型人工智能图像生成模型,该模型在速度和质量上均实现了显著突破。KOALA 能够在短短 2
    的头像 发表于 03-05 10:46 730次阅读

    谷歌模型怎么用PS打开文件和图片

    )或ONNX模型(.onnx)等。这些模型文件是二进制的,并且是为特定的机器学习框架设计的,而不是为图像编辑软件如PS设计的。
    的头像 发表于 02-29 18:25 1356次阅读

    Stability AI试图通过新的图像生成人工智能模型保持领先地位

    Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大,而Stable Diffusion是许多其他文
    的头像 发表于 02-19 16:03 889次阅读
    Stability <b class='flag-5'>AI</b>试图通过新的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>人工智能<b class='flag-5'>模型</b>保持领先地位

    微软为新闻编辑行业推出AI工具

    近日,微软宣布与全球多家知名新闻机构展开紧密合作,共同探索并推动生成AI在新闻编辑室中的创新应用。微软表示,将全力支持新闻机构优化AI技术在新闻采编和日常业务实践中的运用,并致力于培
    的头像 发表于 02-18 11:08 665次阅读

    上海AI实验室发布新代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 1048次阅读

    谷歌推出图像生成新工具ImageFX,提升图像质量

    作为实验室的新兴工具,ImageFX 允许用户借助简洁的文字指令来创作图像。经过前期试验,该团队认为对生成型人工智能工具来说最关键的是如何启发并鼓励用户挖掘和实践创意想法。
    的头像 发表于 02-02 14:18 610次阅读

    科学家如何加速下代微电子技术的发展

    扬声器、救生医疗设备和电动汽车等几乎任何用途的微小硅组件,而个由劳伦斯伯克利国家实验室伯克利实验室)领导的新中心可以加速微芯片的下
    的头像 发表于 01-23 13:42 335次阅读

    三星AI手机有多神?引入智能显示,自动调节亮度、颜色…

    Galaxy S24系列配备了Galaxy AI(设备端人工智能)以及三星Gauss(高斯)等生成式人工智能。换句话说,关键功能可以通过设备上的人工智能来解决,而无需联系外部服务器。生成式人工智能支持需要更多计算的任务,例如高级
    的头像 发表于 01-19 15:49 1164次阅读

    放下你的PhotoShop!无限图像编辑开源

    我们知道扩散模型生成图像是通过反转采样来进行的,重点是识别噪声。LEDITS++从DDPM反演中提取特征,并提种有效的反演方法,大大减少
    的头像 发表于 12-10 10:09 839次阅读
    放下你的PhotoShop!无限<b class='flag-5'>图像编辑</b>已<b class='flag-5'>开源</b>!

    jpg如何转psd格式?

    jpg如何转psd格式? 将JPG格式转换为PSD格式是个比较简单的过程,只需使用合适的图像编辑软件即可完成。在本文中,我将提供详尽、详实、细致的步骤,帮助你完成这个转换过程。 首先,我们需要
    的头像 发表于 12-09 16:09 2370次阅读