0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种「个性化」的文本到图像扩散模型 DreamBooth

CVer 来源:机器之心 作者:机器之心 2022-11-14 15:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。

其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。

一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。

虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。

dc9e274e-636c-11ed-8abf-dac502259ad0.png

为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

dcf735a0-636c-11ed-8abf-dac502259ad0.png

论文地址:https://arxiv.org/abs/2208.12242

项目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。

dd172b76-636c-11ed-8abf-dac502259ad0.png

具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。

首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。

第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。

我们来看一下该研究提出的具体方法。

方法介绍

给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。

更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。

dd7a6d9e-636c-11ed-8abf-dac502259ad0.png

该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。

为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。

为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:

ddc37d68-636c-11ed-8abf-dac502259ad0.png

稀有 token 标识符表示主题

该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。

效果展示

下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:

de33066a-636c-11ed-8abf-dac502259ad0.jpg

训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:

de5d67fc-636c-11ed-8abf-dac502259ad0.png

在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;

de843bd4-636c-11ed-8abf-dac502259ad0.png

绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:

df404126-636c-11ed-8abf-dac502259ad0.png

输入提示「a dog on top of sks container」就能让小狗坐在箱子里:

df684b8a-636c-11ed-8abf-dac502259ad0.png

下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:

df943bdc-636c-11ed-8abf-dac502259ad0.png

该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:

dfcd19a2-636c-11ed-8abf-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42435
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52257

原文标题:谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    申矽凌与高通合作打造个性化智能穿戴体验

    申矽凌近日宣布,公司正与高通技术公司合作,在其Snapdragon Wear Elite平台上实现微型高精度温度传感。此举正值业界致力于通过新代智能可穿戴设备实现传感领域能够更好地理解用户需求,提供主动服务,并带来高度个性化
    的头像 发表于 03-09 13:51 1613次阅读

    使用Firebase AI Logic生成图像模型的两新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两新功能: 其
    的头像 发表于 11-30 09:28 538次阅读

    红外测温传感器在智能马桶中的创新应用:领麦微技术驱动的节能与个性化升级

    智能马桶已从基础功能设备升级为集健康监测、节能环保与个性化体验于体的智能终端。其中,领麦微红外测温传感器凭借其高精度、毫秒级响应、非接触式测温等核心技术优势,成为破解传统马桶圈“能耗高、体验差
    的头像 发表于 10-22 15:35 816次阅读
    红外测温传感器在智能马桶中的创新应用:领麦微技术驱动的节能与<b class='flag-5'>个性化</b>升级

    【内测活动同步开启】这么小?这么强?新代大模型MCP开发板来啦!

    噪,无惧嘈杂环境 云端接入小聆AI,轻松实现个性化定制 搭载领先大模型全链路技术:小聆AI 智能语音交互方案 集成情绪感知与表达 :支持情感发音人;支持声音复刻,实现个性化定制 独家人声滤噪:基于声纹
    发表于 09-25 11:47

    蘑菇街 API 接口:开启时尚电商个性化推荐新潮流

    在当今数字化时代,时尚电商平台正经历着前所未有的变革。蘑菇街作为中国领先的时尚社交电商平台,凭借其创新的 API 接口,正在引领个性化推荐的新潮流。这篇文章将逐步解析蘑菇街 API 接口的核心
    的头像 发表于 09-04 15:19 799次阅读

    利用小红书电商 API 接口,实现小红书店铺商品推荐个性化

    据、商品信息和交互行为。通过合理利用这些接口,店铺可以实现高度个性化的商品推荐系统,从而精准匹配用户需求。本文将逐步介绍如何基于小红书电商 API 实现这目标,涵盖技术原理、实现步骤和实际应用,确保内容真实可靠。 1. 理解小红书电商 API 接口
    的头像 发表于 08-27 15:31 1266次阅读
    利用小红书电商 API 接口,实现小红书店铺商品推荐<b class='flag-5'>个性化</b>

    复杂装备研发设计中利用数据实现大规模个性化定制

    用户需求下的高效率生产制造。以下从技术实现、应用案例及未来趋势三个维度展开分析: 、技术实现:数据驱动的个性化定制框架 需求识别与数据采集 多源数据整合 :通过物联网传感器、用户反馈、市场调研等渠道,采集用户
    的头像 发表于 08-06 17:17 846次阅读

    利用API提升电商用户体验:个性化推荐系统

      在当今竞争激烈的电商环境中,个性化推荐系统已成为提升用户粘性和转化率的核心工具。通过API(Application Programming Interface)集成,电商平台能够高效接入先进
    的头像 发表于 07-14 14:45 734次阅读
    利用API提升电商用户体验:<b class='flag-5'>个性化</b>推荐系统

    2025年电商API发展趋势:智能个性化

    体验与商业生态。 、智能趋势:从自动自主决策 AI驱动的实时决策 API将深度集成机器学习模型,实现动态定价、库存预测与风险管控。例
    的头像 发表于 07-11 14:26 733次阅读
    2025年电商API发展趋势:智能<b class='flag-5'>化</b>与<b class='flag-5'>个性化</b>

    一种基于扩散模型的视频生成框架RoboTransfer

    在机器人操作领域,模仿学习是推动具身智能发展的关键路径,但高度依赖大规模、高质量的真实演示数据,面临高昂采集成本与效率瓶颈。仿真器虽提供了低成本数据生成方案,但显著的“模拟现实”(Sim2Real)鸿沟,制约了仿真数据训练策略的泛能力与落地应用。
    的头像 发表于 07-09 14:02 939次阅读
    <b class='flag-5'>一种</b>基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的视频生成框架RoboTransfer

    AIBOX 产品矩阵:支持主流大模型的私有部署,满足个性化 AI 应用需求

    AIBOX系列产品具备高性能、低功耗、环境适应性强等特点,算力覆盖6-157TOPS,通过搭配多样深度学习算法,体积小巧,能够支持主流大模型的私有部署,为多个智慧行业进行数字赋能
    的头像 发表于 06-25 16:32 2008次阅读
    AIBOX 产品矩阵:支持主流大<b class='flag-5'>模型</b>的私有<b class='flag-5'>化</b>部署,满足<b class='flag-5'>个性化</b> AI 应用需求

    无法使用OpenVINO™在 GPU 设备上运行稳定扩散文本图像的原因?

    在OpenVINO™ GPU 设备上使用图像大小 (1024X576) 运行稳定扩散文本图像,并收到错误消息: RuntimeError: Exception from
    发表于 06-25 06:36

    EM储能网关 ZWS智慧储能云应用(13) — 企业个性化配置

    储能公有云平台,企业用户如何自主个性化配置?ZWS智慧储能云通过灵活的多级配置功能,实现个性化系统配置,帮助强化储能企业独特性。简介储能企业在使用智慧储能云平台时,常面临企业个性化和品牌展示
    的头像 发表于 05-23 11:39 988次阅读
    EM储能网关 ZWS智慧储能云应用(13) — 企业<b class='flag-5'>个性化</b>配置

    赋能个性化表达!eSUN易生3D打印材料在时尚设计领域的应用

    3D打印技术可以突破传统材料和工艺的限制,为用户提供个性化且高效便捷的使用体验。从华丽的T台人们的日常生产生活,3D打印技术都正在发挥更大的作用。eSUN易生丰富多样的3D打印材料也起见证了许多优质应用的诞生!
    的头像 发表于 05-20 14:11 939次阅读
    赋能<b class='flag-5'>个性化</b>表达!eSUN易生3D打印材料在时尚设计领域的应用

    个性化医疗的挑战,微流液体监测

    现代医学已能够极大改善全球人口的生活质量。脊髓灰质炎、梅毒、肺结核或鼠疫等疾病几乎已经根除,并且可以成功治疗或治愈。下个里程碑则是个性化医疗。这门新颖的学科针对的并非广泛人群,而是专注于个体患者
    的头像 发表于 05-19 13:25 667次阅读
    <b class='flag-5'>个性化</b>医疗的挑战,微流液体监测