0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种「个性化」的文本到图像扩散模型 DreamBooth

CVer 来源:机器之心 作者:机器之心 2022-11-14 15:11 次阅读

来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。

其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。

一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。

虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。

dc9e274e-636c-11ed-8abf-dac502259ad0.png

为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

dcf735a0-636c-11ed-8abf-dac502259ad0.png

论文地址:https://arxiv.org/abs/2208.12242

项目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。

dd172b76-636c-11ed-8abf-dac502259ad0.png

具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。

首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。

第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。

我们来看一下该研究提出的具体方法。

方法介绍

给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。

更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。

dd7a6d9e-636c-11ed-8abf-dac502259ad0.png

该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。

为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。

为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:

ddc37d68-636c-11ed-8abf-dac502259ad0.png

稀有 token 标识符表示主题

该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。

效果展示

下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:

de33066a-636c-11ed-8abf-dac502259ad0.jpg

训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:

de5d67fc-636c-11ed-8abf-dac502259ad0.png

在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;

de843bd4-636c-11ed-8abf-dac502259ad0.png

绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:

df404126-636c-11ed-8abf-dac502259ad0.png

输入提示「a dog on top of sks container」就能让小狗坐在箱子里:

df684b8a-636c-11ed-8abf-dac502259ad0.png

下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:

df943bdc-636c-11ed-8abf-dac502259ad0.png

该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:

dfcd19a2-636c-11ed-8abf-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1087

    浏览量

    40505
  • 模型
    +关注

    关注

    1

    文章

    3268

    浏览量

    48937

原文标题:谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ComplexHeatmap包:个性化热图绘制利器

    雕琢。 官方介绍网站: https://jokergoo.github.io/ComplexHeatmap-reference/book/ 下面来介绍几个简单又实用的个性化调整: 可指定分群数,对热图
    的头像 发表于 12-31 11:17 74次阅读
    ComplexHeatmap包:<b class='flag-5'>个性化</b>热图绘制利器

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    中取得了令人瞩目的效果。 阅读感悟 从传统的手动编程借助大模型实现智能、自主,从单模态的交互
    发表于 12-29 23:04

    【「大模型启示录」阅读体验】营销领域大模型的应用

    解目标市场,从而制定更有效的营销策略。 大模型擅长分析,可以非常好的提炼IP,为决策者提供辅助参考。 基于消费者的历史数据和行为模式,大模型能够提供个性化的产品或服务推荐。这种个性化
    发表于 12-24 12:48

    语音芯片赋能可穿戴设备:开启个性化音频新体验

    语音芯片与可穿戴设备合作,带来定制音效、智能降噪、个性化推荐、语音交互及跨设备共享等,引领个性化音频时代,提升用户听觉体验。
    的头像 发表于 12-14 15:44 458次阅读

    智慧路灯照明管理系统,呈现个性化城市照明效果

    【智慧城市】智慧路灯照明管理系统,呈现个性化城市照明效果
    的头像 发表于 10-28 14:39 370次阅读
    智慧路灯照明管理系统,呈现<b class='flag-5'>个性化</b>城市照明效果

    扩散模型的理论基础

    扩散模型的迅速崛起是过去几年机器学习领域最大的发展之。在这本简单易懂的指南中,学习你需要知道的关于扩散模型
    的头像 发表于 10-28 09:30 544次阅读
    <b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的理论基础

    以AI破解个性化客服难题

    文汇集多个行业借助 AI 实现的个性化客服实践
    的头像 发表于 10-25 09:06 1912次阅读
    以AI破解<b class='flag-5'>个性化</b>客服难题

    iPadOS 18悄然升级Apple Music体验,个性化标签栏成亮点

    在8月29日揭晓的iPadOS 18更新中,尽管并未涌现大量专为iPad设计的独家功能,但项针对Apple Music的细致优化——自定义标签栏功能,却极大地提升了iPad用户的个性化体验。这改动虽看似细微,实则蕴含了巨大的
    的头像 发表于 08-29 16:10 381次阅读

    Meta发布Imagine Yourself AI模型,重塑个性化图像生成未来

    Meta公司近日在人工智能领域迈出了重要步,隆重推出了其创新之作——“Imagine Yourself”AI模型,这突破性技术为个性化图像
    的头像 发表于 08-26 10:59 537次阅读

    Whatsapp正在开发一种新的生成人工智能功能

    据悉,Whatsapp正在开发一种新的生成人工智能功能,该功能应允许用户制作自己的个性化头像,用于任何想象中的场景。WABetaInfo在新的Android版WhatsApp测试版2.24.14.7
    的头像 发表于 07-14 17:50 1025次阅读

    rup是一种什么模型

    RUP(Rational Unified Process,统建模语言)是一种软件开发过程模型,它是一种迭代和增量的软件开发方法。RUP是由Rational Software公司(现为
    的头像 发表于 07-09 10:13 1328次阅读

    亚马逊推出个性化AI歌单功能Maestro,进军音乐市场

    据亚马逊公司透露,其音乐应用程序 Amazon Music 已开始向少量美国用户推出 AI 生成歌单功能 Maestro 的测试版服务。这项服务允许用户利用多样的提示信息(如文本、表情符号及其组合等),迅速生成个性化的歌单。
    的头像 发表于 04-17 16:48 633次阅读

    激光打标机:精准定位,实现个性化标识需求

    激光打标机:精准定位,实现个性化标识需求激光打标机,以其精准定位的特性,成为实现个性化标识需求的得力工具。在现代制造业中,个性化标识已成为产品差异化、品牌塑造和提升附加值的重要手段。激光打标机通过其
    的头像 发表于 03-19 19:43 534次阅读
    激光打标机:精准定位,实现<b class='flag-5'>个性化</b>标识需求

    打造专属高清视频转换器:满足个性化视频转换需求

    转换器成为了个理想的选择。 个性化需求满足 每个人都有自己特定的视频转换需求。有些人可能经常需要将某种特定格式的视频转换为另一种格式,而有些人可能希望添加特定的转换参数或功能。通过定制高清视频转换器,用户可以
    的头像 发表于 02-22 14:29 327次阅读

    个性化定制,提升运营效率:SAP二次开发引领企业数字转型

    的解决方案,助力其实现数字转型,提高运营效率,迎接不断变化的业务需求。 提升企业运营效率,打造个性化管理工具 SAP二次开发服务可以根据企业的特定需求,深入定制现有的SAP系统,为企业提供个性化的管理工具。无论是针对业务流程的
    的头像 发表于 02-18 13:29 439次阅读