论文简介
可控扩散模型如ControlNet、T2I-Adapter和GLIGEN等可通过额外添加的空间条件如人体姿态、目标框来控制生成图像中内容的具体布局。使用从已有的图像中提取的人体姿态、目标框或者数据集中的标注作为空间限制条件,上述方法已经获得了非常好的可控图像生成效果。那么如何更友好、方便地获得空间限制条件?或者说如何自定义空间条件用于可控图像生成呢?例如自定义空间条件中物体的类别、大小、数量、以及表示形式(目标框、关键点、和实例掩码)。
本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式来建模上述视觉先验。因此,我们可以从学习好的先验中通过Prompt从多个层面,例如表示形式(目标框、关键点、实例掩码)、物体类别、大小和数量,来采样空间限制条件。我们设想,随着可控扩散模型生成能力的提升,以此可以针对性地生成图像用于特定场景下的数据补充,例如拥挤场景下的人体姿态估计和目标检测。
方法介绍
表1 训练数据
本文从当前公开的数据集中整理收集了七种数据,如表1所示。为了以Generative Pre-Training的方式学习视觉先验并且添加序列输出的可定制功能,本文提出以下两种Prompt模板:
使用上述模板可以将表1中训练数据中每一张图片的标注格式化成一个序列x。在训练过程中,我们使用BPE算法将每个序列x编码成tokens={u1,u2,…,u3},并通过极大化似然来学习视觉先验,如下式:
最后,我们可以从上述方式学习获得的模型中定制序列输出,如下图所示。
图1 定制序列输出
效果展示
-
模型
+关注
关注
1文章
3413浏览量
49470 -
数据集
+关注
关注
4文章
1212浏览量
24983 -
图像生成
+关注
关注
0文章
22浏览量
6933
原文标题:NeurIPS 2023 | NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件
文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
如何判断产品需不需要做AT&T认证?AT&T测试内容和要求分享

北美运营商AT&amp;amp;T认证中的VoLTE测试项

视觉传感器 | 这些常见的Q&amp;amp;A!今天统一回答!

北美运营商AT&amp;amp;T认证的费用受哪些因素影响

onsemi LV/MV MOSFET 产品介绍 &amp;amp; 行业应用

FS201资料(pcb &amp; DEMO &amp; 原理图)
北美运营商AT&amp;amp;T认证入库产品范围名单相关

解读北美运营商,AT&amp;amp;T的认证分类与认证内容分享

在TSMaster中加载基于DotNet平台的Seed&amp;amp;Key

评论