NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件-电子发烧友网

论文简介

可控扩散模型如ControlNet、T2I-Adapter和GLIGEN等可通过额外添加的空间条件如人体姿态、目标框来控制生成图像中内容的具体布局。使用从已有的图像中提取的人体姿态、目标框或者数据集中的标注作为空间限制条件，上述方法已经获得了非常好的可控图像生成效果。那么如何更友好、方便地获得空间限制条件？或者说如何自定义空间条件用于可控图像生成呢？例如自定义空间条件中物体的类别、大小、数量、以及表示形式（目标框、关键点、和实例掩码）。

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验（Visual Prior），并使用Transformer Decoder以Generative Pre-Training的方式来建模上述视觉先验。因此，我们可以从学习好的先验中通过Prompt从多个层面，例如表示形式（目标框、关键点、实例掩码）、物体类别、大小和数量，来采样空间限制条件。我们设想，随着可控扩散模型生成能力的提升，以此可以针对性地生成图像用于特定场景下的数据补充，例如拥挤场景下的人体姿态估计和目标检测。

方法介绍

表1 训练数据

本文从当前公开的数据集中整理收集了七种数据，如表1所示。为了以Generative Pre-Training的方式学习视觉先验并且添加序列输出的可定制功能，本文提出以下两种Prompt模板：

使用上述模板可以将表1中训练数据中每一张图片的标注格式化成一个序列x。在训练过程中，我们使用BPE算法将每个序列x编码成tokens={u1,u2,…,u3}，并通过极大化似然来学习视觉先验，如下式：

最后，我们可以从上述方式学习获得的模型中定制序列输出，如下图所示。

图1 定制序列输出

效果展示

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3413

浏览量
49470
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24983
图像生成

图像生成

+关注

关注
0

文章
22

浏览量
6933

原文标题：NeurIPS 2023 | NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

NUS&深大提出VisorGPT：为可控文本图像生成定制空间条件

评论

宏集X7 &amp; X10系列手持HMI——突破限制，赋能工业现场

如何判断产品需不需要做AT&amp;amp;T认证?AT&amp;amp;T测试内容和要求分享

北美运营商AT&amp;amp;T认证中的VoLTE测试项

能力再次提升！迅为RK3588/RK3568开发板&amp;amp;核心板新增定制分区镜像

视觉传感器 | 这些常见的Q&amp;amp;A！今天统一回答！

迅为itop-3568开发板AMP双系统使用手册之烧写AMP镜像

北美运营商AT&amp;amp;T认证的费用受哪些因素影响

onsemi LV/MV MOSFET 产品介绍 &amp;amp; 行业应用

OC7201C资料（PCB &amp; 原理图）

FS201资料（pcb &amp; DEMO &amp; 原理图）

北美运营商AT&amp;amp;T认证入库产品范围名单相关

解读北美运营商，AT&amp;amp;T的认证分类与认证内容分享

在TSMaster中加载基于DotNet平台的Seed&amp;amp;Key

爱立信旗下Vonage与AT&amp;T合作，通过API为开发者提供更丰富的网络能力

Open RAN的未来及其对AT&amp;T的意义