NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件-电子发烧友网

代码：https://github.com/Sierkinhane/VisorGPT

论文：https://arxiv.org/abs/2305.13777

论文简介

可控扩散模型如ControlNet、T2I-Adapter和GLIGEN等可通过额外添加的空间条件如人体姿态、目标框来控制生成图像中内容的具体布局。使用从已有的图像中提取的人体姿态、目标框或者数据集中的标注作为空间限制条件，上述方法已经获得了非常好的可控图像生成效果。那么如何更友好、方便地获得空间限制条件？或者说如何自定义空间条件用于可控图像生成呢？例如自定义空间条件中物体的类别、大小、数量、以及表示形式（目标框、关键点、和实例掩码）。

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验（Visual Prior），并使用Transformer Decoder以Generative Pre-Training的方式来建模上述视觉先验。因此，我们可以从学习好的先验中通过Prompt从多个层面，例如表示形式（目标框、关键点、实例掩码）、物体类别、大小和数量，来采样空间限制条件。我们设想，随着可控扩散模型生成能力的提升，以此可以针对性地生成图像用于特定场景下的数据补充，例如拥挤场景下的人体姿态估计和目标检测。

方法介绍

表1 训练数据

本文从当前公开的数据集中整理收集了七种数据，如表1所示。为了以Generative Pre-Training的方式学习视觉先验并且添加序列输出的可定制功能，本文提出以下两种Prompt模板：

使用上述模板可以将表1中训练数据中每一张图片的标注格式化成一个序列x。在训练过程中，我们使用BPE算法将每个序列x编码成tokens={u1,u2,…,u3}，并通过极大化似然来学习视觉先验，如下式：

最后，我们可以从上述方式学习获得的模型中定制序列输出，如下图所示。

图1 定制序列输出

效果展示

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3413

浏览量
49470
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24983
图像生成

图像生成

+关注

关注
0

文章
22

浏览量
6933

原文标题：NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

评论

基于扩散模型的图像生成过程

一种有效的文本图像二值化方法

基于相容粗集的二值文本图像数字水印方法

基于多小波变换的文本图像文种识别

基于岭回归的稀疏编码文本图像复原方法

基于Hash函数的文本图像脆弱水印算法

如何去解决文本到图像生成的跨模态对比损失问题？

Labview&SQLSever如何自动生成查询语句

复旦&amp;微软提出OmniVL：首个统一图像、视频、文本的基础预训练模型

如何区分Java中的&amp;和&amp;&amp;

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

基于文本到图像模型的可控文本到视频生成

HarmonyOS &amp;amp;amp;润和HiSpark 实战开发，“码”上评选活动，邀您来赛！！！

NUS&;amp;深大提出VisorGPT：为可控文本图像生成定制空间条件

能力再次提升！迅为RK3588/RK3568开发板&amp;amp;核心板新增定制分区镜像