0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

CVer 来源:CVer 2023-09-26 16:14 次阅读

论文简介

可控扩散模型如ControlNet、T2I-Adapter和GLIGEN等可通过额外添加的空间条件如人体姿态、目标框来控制生成图像中内容的具体布局。使用从已有的图像中提取的人体姿态、目标框或者数据集中的标注作为空间限制条件,上述方法已经获得了非常好的可控图像生成效果。那么如何更友好、方便地获得空间限制条件?或者说如何自定义空间条件用于可控图像生成呢?例如自定义空间条件中物体的类别、大小、数量、以及表示形式(目标框、关键点、和实例掩码)。

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式来建模上述视觉先验。因此,我们可以从学习好的先验中通过Prompt从多个层面,例如表示形式(目标框、关键点、实例掩码)、物体类别、大小和数量,来采样空间限制条件。我们设想,随着可控扩散模型生成能力的提升,以此可以针对性地生成图像用于特定场景下的数据补充,例如拥挤场景下的人体姿态估计和目标检测

方法介绍

表1 训练数据

e17fe920-5c2a-11ee-939d-92fbcf53809c.png

本文从当前公开的数据集中整理收集了七种数据,如表1所示。为了以Generative Pre-Training的方式学习视觉先验并且添加序列输出的可定制功能,本文提出以下两种Prompt模板:

e198337c-5c2a-11ee-939d-92fbcf53809c.png

使用上述模板可以将表1中训练数据中每一张图片的标注格式化成一个序列x。在训练过程中,我们使用BPE算法将每个序列x编码成tokens={u1,u2,…,u3},并通过极大化似然来学习视觉先验,如下式:

e1b004d4-5c2a-11ee-939d-92fbcf53809c.png

最后,我们可以从上述方式学习获得的模型中定制序列输出,如下图所示。

e1be4bfc-5c2a-11ee-939d-92fbcf53809c.png

图1 定制序列输出

效果展示

e1db2844-5c2a-11ee-939d-92fbcf53809c.png

e1fa30cc-5c2a-11ee-939d-92fbcf53809c.png

e21c6426-5c2a-11ee-939d-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3238

    浏览量

    48824
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24696
  • 图像生成
    +关注

    关注

    0

    文章

    22

    浏览量

    6895

原文标题:NeurIPS 2023 | NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    宏集X7 & X10系列手持HMI——突破限制,赋能工业现场

    全新宏集X7 & X10系列手持HMI重磅上市!您打破传统人机交互的空间限制,实现更高效、更安全的生产操作
    的头像 发表于 12-24 17:38 84次阅读
    宏集X7 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; X10系列手持HMI——突破限制,赋能工业现场

    如何判断产品需不需要做AT&amp;amp;amp;T认证?AT&amp;amp;amp;T测试内容和要求分享

    随着经济全球化的发展,国内越来越多产品厂商选择将自家产品出口到北美市场,而这时候各位厂商都会面临产品需不需要做AT&amp;T的问题。今天英利检测针对这一问题整理了一些关于AT&amp;T认证中
    的头像 发表于 12-23 17:46 98次阅读
    如何判断产品需不需要做AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证?AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T测试内容和要求分享

    北美运营商AT&amp;amp;amp;T认证中的VoLTE测试项

    北美运营商AT&amp;T的认证测试内容涵盖了多个方面,以确保设备和服务的质量、兼容性以及用户体验。在AT&amp;T的认证测试中,VoLTE(VoiceoverLTE)测试项是一个重要的组成部分
    的头像 发表于 12-06 16:52 138次阅读
    北美运营商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证中的VoLTE测试项

    能力再次提升! 迅RK3588/RK3568开发板&amp;amp;amp;核心板新增定制分区镜像

    能力再次提升! 迅RK3588/RK3568开发板&amp;核心板新增定制分区镜像
    的头像 发表于 11-06 15:11 459次阅读
    能力再次提升! 迅<b class='flag-5'>为</b>RK3588/RK3568开发板&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;核心板新增<b class='flag-5'>定制</b>分区镜像

    视觉传感器 | 这些常见的Q&amp;amp;amp;A!今天统一回答!

    明治的视觉传感器功能丰富,集相机、光源、镜头一体,搭载先进的算法,可被握在手心的小巧尺寸,是狭小空间的视觉检测神器。备利用传感器与光学元件获取被测物的图像,通过设备内置的深度学习算法实现有无检测
    的头像 发表于 11-05 08:03 313次阅读
    视觉传感器 |  这些常见的Q&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;A!今天统一回答!

    itop-3568开发板AMP双系统使用手册之烧写AMP镜像

    itop-3568开发板AMP双系统使用手册之烧写AMP镜像
    的头像 发表于 11-04 15:00 440次阅读
    迅<b class='flag-5'>为</b>itop-3568开发板<b class='flag-5'>AMP</b>双系统使用手册之烧写<b class='flag-5'>AMP</b>镜像

    北美运营商AT&amp;amp;amp;T认证的费用受哪些因素影响

    申请北美运营商AT&amp;T认证的价格因多种因素而异,包括产品类型、认证范围、测试难度等。一般来说,申请AT&amp;T认证的费用可能相对较高,因为AT&amp;T作为北美地区的主要电信运营商,其
    的头像 发表于 10-16 17:10 213次阅读
    北美运营商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证的费用受哪些因素影响

    onsemi LV/MV MOSFET 产品介绍 &amp;amp;amp; 行业应用

    01直播介绍直播时间2024/10/281430直播内容1.onsemiLV/MVMOSFET产品优势&amp;市场地位。2.onsemiLV/MVMOSFETRoadmap。3.onsemiT10
    的头像 发表于 10-13 08:06 391次阅读
    onsemi LV/MV MOSFET 产品介绍 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行业应用

    FS201资料(pcb &amp;amp; DEMO &amp;amp; 原理图)

    电子发烧友网站提供《FS201资料(pcb &amp; DEMO &amp; 原理图).zip》资料免费下载
    发表于 07-16 11:24 0次下载

    北美运营商AT&amp;amp;amp;T认证入库产品范围名单相关

    AT&amp;T作为全球领先的通信服务运营商之一,通过AT&amp;T认证不仅是对产品质量的认可,更是产品打开北美市场大门的重要凭证。然而,或许您还不清楚AT&amp;T认证入库的产品范围,接下来
    的头像 发表于 06-28 16:58 455次阅读
    北美运营商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证入库产品范围名单相关

    解读北美运营商,AT&amp;amp;amp;T的认证分类与认证内容分享

    在数字化日益深入的今天,通信技术的稳定与安全对于个人、企业乃至整个国家都至关重要。作为北美通信领域的领军者,AT&amp;T一直致力于用户提供高效、可靠的通信服务。而在这背后,AT&amp;T
    的头像 发表于 06-05 17:27 604次阅读
    解读北美运营商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的认证分类与认证内容分享

    在TSMaster中加载基于DotNet平台的Seed&amp;amp;amp;Key

    在UDS诊断过程中,会涉及到安全访问的问题,也就是所谓的Seed&amp;Key。TSMaster诊断模块支持通过.dll文件载入Seed&amp;Key算法用于安全访问解锁。在最近发布
    的头像 发表于 04-02 08:20 559次阅读
    在TSMaster中加载基于DotNet平台的Seed&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;Key

    爱立信旗下Vonage与AT&amp;amp;T合作,通过API开发者提供更丰富的网络能力

    近日,爱立信旗下的Vonage正在与美国跨国电信运营商AT&amp;T合作,通过API开发者和企业提供更丰富的网络能力。
    的头像 发表于 03-21 10:37 1.2w次阅读

    Open RAN的未来及其对AT&amp;amp;T的意义

    3月14日消息,在“Connected America 2024”会议上,AT&amp;T高级副总裁兼网络首席技术官Yigal Elbaz讨论了Open RAN 的未来及其对AT&amp;T的意义。
    的头像 发表于 03-14 14:40 738次阅读

    【电磁兼容技术文档分享】频谱仪应用案例&amp;amp;amp;简易探头的制作

    【电磁兼容技术文档分享】频谱仪应用案例&amp;简易探头的制作
    的头像 发表于 02-19 13:20 983次阅读
    【电磁兼容技术文档分享】频谱仪应用案例&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;简易探头的制作