0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

CVer 来源:CVer 2023-06-11 10:34 次阅读

5e3a79e4-07a8-11ee-962d-dac502259ad0.png

代码:https://github.com/Sierkinhane/VisorGPT

论文:https://arxiv.org/abs/2305.13777

论文简介

可控扩散模型如ControlNet、T2I-Adapter和GLIGEN等可通过额外添加的空间条件如人体姿态、目标框来控制生成图像中内容的具体布局。使用从已有的图像中提取的人体姿态、目标框或者数据集中的标注作为空间限制条件,上述方法已经获得了非常好的可控图像生成效果。那么如何更友好、方便地获得空间限制条件?或者说如何自定义空间条件用于可控图像生成呢?例如自定义空间条件中物体的类别、大小、数量、以及表示形式(目标框、关键点、和实例掩码)。

本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式来建模上述视觉先验。因此,我们可以从学习好的先验中通过Prompt从多个层面,例如表示形式(目标框、关键点、实例掩码)、物体类别、大小和数量,来采样空间限制条件。我们设想,随着可控扩散模型生成能力的提升,以此可以针对性地生成图像用于特定场景下的数据补充,例如拥挤场景下的人体姿态估计和目标检测

方法介绍

表1 训练数据

5eab847c-07a8-11ee-962d-dac502259ad0.png

本文从当前公开的数据集中整理收集了七种数据,如表1所示。为了以Generative Pre-Training的方式学习视觉先验并且添加序列输出的可定制功能,本文提出以下两种Prompt模板:

5ed8ad76-07a8-11ee-962d-dac502259ad0.png

使用上述模板可以将表1中训练数据中每一张图片的标注格式化成一个序列x。在训练过程中,我们使用BPE算法将每个序列x编码成tokens={u1,u2,…,u3},并通过极大化似然来学习视觉先验,如下式:

5f1636b4-07a8-11ee-962d-dac502259ad0.png

最后,我们可以从上述方式学习获得的模型中定制序列输出,如下图所示。

5f39dd4e-07a8-11ee-962d-dac502259ad0.png

图1 定制序列输出

效果展示

5fd83cdc-07a8-11ee-962d-dac502259ad0.png

6011b3a4-07a8-11ee-962d-dac502259ad0.png

615fde7a-07a8-11ee-962d-dac502259ad0.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3097

    浏览量

    48624
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24608
  • 图像生成
    +关注

    关注

    0

    文章

    22

    浏览量

    6879

原文标题:NUS&深大提出VisorGPT:为可控文本图像生成定制空间条件

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于扩散模型的图像生成过程

    等很难用文本指定。   最近,谷歌发布了MediaPipe Diffusion插件,可以在移动设备上运行「可控文本图像生成」的低成本解决方
    的头像 发表于 07-17 11:00 2593次阅读
    基于扩散模型的<b class='flag-5'>图像</b><b class='flag-5'>生成</b>过程

    一种有效的文本图像二值化方法

    针对一般文本图像二值化方法--全局阈值法和局部阈值法所存在的不足,提出了一种整体与局部相结合的二值化方法,该方法根据文本图像的特点,自适应调整局部二值化的窗
    发表于 06-11 09:08 13次下载

    基于相容粗集的二值文本图像数字水印方法

    针对二值文本图像像素简单、纹理复杂、信息隐藏的免疫力差的特点,提出了一种基于相容粗糙集的数字水印嵌入位置选择方法。该方法把二值文本载体图像划分为不同的等价类
    发表于 08-12 16:54 14次下载

    基于灰度直方图和谱聚类的文本图像二值化方法

    基于灰度直方图和谱聚类的文本图像二值化方法:在自动文本提取中,经定位获得的字符区域需二值化后方能有效识别,由于背景的复杂,常用的阈值化方法不能有效分割自然环境下
    发表于 10-29 13:08 18次下载

    基于多小波变换的文本图像文种识别

    采用了基于多 小波变换 的文本图像文种识别方法,提取多小波变换各子带系数的能量特征,构造特征矢量,并采用LIBSVM进行多文种的分类。通过对10种语言文字的文本图像进行实验,表
    发表于 08-15 10:34 25次下载
     基于多小波变换的<b class='flag-5'>文本图像</b>文种识别

    基于岭回归的稀疏编码文本图像复原方法

    解决现有稀疏编码方法在文本图像复原中存在的编码码元表述空间有限和计算时间长的问题,提出了一种基于岭回归的稀疏编码文本图像复原方法。首先,该
    发表于 11-28 17:10 1次下载

    基于Hash函数的文本图像脆弱水印算法

    随着互联网的发展,电子商务和电子政务随之兴起,重要文件资料、经济合同、电子发票等更多文本图像需要网络传送。这些文件一旦出现恶意篡改而无法证明真伪,就会造成严重后果。因此,研究文本图像认证方法
    发表于 12-04 16:04 0次下载

    如何去解决文本图像生成的跨模态对比损失问题?

    文本图像的自动生成,如何训练模型仅通过一段文本描述输入就能生成具体的图像,是一项非常具有挑战
    的头像 发表于 06-15 10:07 2680次阅读
    如何去解决<b class='flag-5'>文本</b>到<b class='flag-5'>图像</b><b class='flag-5'>生成</b>的跨模态对比损失问题?

    Labview&amp;SQLSever如何自动生成查询语句

    Labview&amp;SQLSever如何自动生成查询语句
    发表于 09-29 18:17 7次下载

    复旦&amp;amp;微软提出​OmniVL:首个统一图像、视频、文本的基础预训练模型

    根据输入数据和目标下游任务的不同,现有的VLP方法可以大致分为两类:图像-文本预训练和视频-文本预训练。前者从图像-文本对中学习视觉和语言表
    的头像 发表于 12-14 15:26 856次阅读

    如何区分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先给i赋值0,如果i大于10,并且i++等于1,则输出“错误”和i的值。否则输出“正确”和i的值。分别用&amp;和&amp;&amp;运行,观察运行结果的不同。
    的头像 发表于 02-24 10:46 1468次阅读
    如何区分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    微软提出Control-GPT:用GPT-4实现可控文本图像生成

    该研究提出了一个简单而有效的框架 Control-GPT,它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 T
    的头像 发表于 06-05 15:31 796次阅读
    微软<b class='flag-5'>提出</b>Control-GPT:用GPT-4实现<b class='flag-5'>可控</b><b class='flag-5'>文本</b>到<b class='flag-5'>图像</b><b class='flag-5'>生成</b>!

    基于文本图像模型的可控文本到视频生成

    文本到视频模型需要大量高质量的视频和计算资源,这限制了相关社区进一步的研究和应用。为了减少过度的训练要求,我们研究了一种新的高效形式:基于文本图像模型的可控
    的头像 发表于 06-14 10:39 884次阅读
    基于<b class='flag-5'>文本</b>到<b class='flag-5'>图像</b>模型的<b class='flag-5'>可控</b><b class='flag-5'>文本</b>到视频<b class='flag-5'>生成</b>

    HarmonyOS &amp;amp;amp;amp;润和HiSpark 实战开发,“码”上评选活动,邀您来赛!!!

    出色的系统 助力优秀的设备 应用开发者带来丰富的体验与想象空间 正如当HarmonyOS遇见润和HiSpark 这万物互联的时代 将由你的&amp;lt; 代码 &amp;gt;来
    的头像 发表于 04-11 15:33 1107次阅读
    HarmonyOS &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;润和HiSpark 实战开发,“码”上评选活动,邀您来赛!!!

    NUS&;amp;大提出VisorGPT可控文本图像生成定制空间条件

    本文将空间条件中物体的形状、位置以及它们之间的关系等性质总结为视觉先验(Visual Prior),并使用Transformer Decoder以Generative Pre-Training的方式来建模上述视觉先验。
    的头像 发表于 09-26 16:14 617次阅读
    <b class='flag-5'>NUS&</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>深</b><b class='flag-5'>大提出</b><b class='flag-5'>VisorGPT</b>:<b class='flag-5'>为</b><b class='flag-5'>可控</b><b class='flag-5'>文本图像</b><b class='flag-5'>生成</b><b class='flag-5'>定制</b><b class='flag-5'>空间</b><b class='flag-5'>条件</b>