微软提出Control-GPT：用GPT-4实现可控文本到图像生成！-电子发烧友网

扩散模型虽好，但如何保证生成的图像准确高质量？GPT-4或许能帮上忙。

文本到图像生成领域近两年取得了很大的突破，从 GAN 到 Stable Diffusion，图像生成的速度越来越快，生成效果越来越好。然而，AI 模型生成的图像在细节上还有很多瑕疵，并且使用自然语言指定对象的确切位置、大小或形状存在一定的困难。为了生成精准、高质量的图像，现有方法通常依赖于广泛的提 prompt 工程或手动创建图像草图。这些方法需要大量的人工工作，因此非常低效。

最近，来自加州大学伯克利分校（UC 伯克利）和微软研究院的研究者从编程的角度思考了这个问题。当前，用户能够使用大型语言模型较好地控制代码生成，这让该研究看到了编写程序来控制生成图像细节的可能，包括物体的形状、大小、位置等等。基于此，该研究提出利用大型语言模型（LLM）生成代码的功能实现可控型文本到图像生成。

Controllable Text-to-Image Generation with GPT-4

论文地址：https://arxiv.org/abs/2305.18583

该研究提出了一个简单而有效的框架 Control-GPT，它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图 1 (c) 所示，程序草图（programmatic sketch）是按照准确的文本说明绘制的，随后这些草图被输入 Control-GPT。Control-GPT 是 Stable Diffusion 的一种变体，它能接受额外的输入，例如参考图像、分割图等等。这些草图会充当扩散模型的参考点，使扩散模型能够更好地理解空间关系和特殊概念，而不是仅仅依赖于文本 prompt。这种方法使得 prompt 工程和草图创建过程不再需要人为干预，并提高了扩散模型的可控性。

我们来看一下 Control-GPT 方法的具体细节。

方法

对图像生成来说，训练过程的一个较大挑战是缺乏包含对齐文本和图像的数据集。为了解决这个难题，该研究将现有实例分割数据集（例如 COCO 和 LVIS）中的实例掩码转换为多边形的表示形式，这与 GPT-4 生成的草图类似。

然后，该研究构建了一个包含图像、文本描述和多边形草图的三元数据集，并微调了 ControlNet。该研究发现这种方法有助于更好地理解 GPT 生成的草图，并且可以帮助模型更好地遵循文本 prompt 指令。

ControlNet 是扩散模型的一种变体，它需要额外的输入条件。该研究使用 ControlNet 作为基础图像生成模型，并通过编程草图和 grounding token 的路径对其进行扩展。

框架

如下图 2 所示，在 Control-GPT 中，首先 GPT-4 会根据文本描述生成 TikZ 代码形式的草图，并输出图像中物体的位置。然后该研究用 LATEX 编译 TikZ 代码，将草图转换为图像格式，再将编程草图、文本描述和物体位置的 grounding token 提供给经过调优的 ControlNet 模型，最终生成符合条件的图像。

使用 GPT-4 生成的草图训练 ControlNet 是必要的，因为预训练的 ControlNet 不理解生成的草图，不能将其转换为现实图像。为了 prompt GPT-4，该研究要求用户遵循如下的 prompt 样本，以让 GPT-4 请求 TikZ 代码片段的结构化输出，以及相关物体的名称和位置。然后，该研究使用 GPT-4 的输出来编译草图图像并获得 grounding token。

LLM 绘制草图的准确性如何

Control-GPT 的精度取决于 LLM 生成草图时的准确性和可控性。因此，该研究对 LLM 在草图生成方面的性能进行了基准测试。实验结果表明 GPT 系列模型在草图生成方面明显优于 LLaMa 等开源模型，并且 GPT-4 在遵循文本指令方面表现出惊人的高准确性（约 97%）。

该研究对 Control-GPT 和一些经典模型的生成结果进行了人工评估，结果表明当图像中包含两个不相关的罕见物体组合时，一些模型的生成效果比较差，而 Control-GPT 的生成结果相对较好，如下表 2 所示：

查询 LLMs，生成一个 TikZ 代码片段来描述给定的文本，进而检查 LLMs 的性能。如下表 1 所示，GPT-series 模型的大多数代码片段都可以编译为有效的草图，而 LLaMA 和 Alpaca 的输出要么是空的，要么不可运行。在 GPT-series 模型中，最新的 GPT-4 在 95 个查询中只有 3 次失败，这些查询成功地生成了有效草图，在遵循文本指令方面的成功率大约有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微调版本，其性能明显低于原始 GPT-3.5。在调优过程中，聊天能力和代码生成之间可能存在着权衡。

在下图 4 中，研究者提供了一个来自 GPT 系列模型的可视化草图例子。虽然生成的草图不如照片那样逼真，但它们往往能捕捉到语义，并正确推理出物体的空间关系。生成的草图经常出人意料地通过简单的代码片断来正确处理物体形状。

下图最后一行展示了 GPT-4 的一个失败案例，即模型无法生成物体形状，而 GPT-3.5 却能给出一个正确的草图。GPT-4 在草图生成方面的高精度带来的启发是：可以使用它来提高图像生成模型的可控性。

实验

基于 Visor 数据集，研究者对 Control-GPT 进行了一系列实验设置的评估，测试其在空间关系、物体位置和大小方面的可控性。他们还将评估扩展到多个物体和分布外的 prompt。广泛的实验表明，Control-GPT 可以大大提升扩散模型的可控性。

下表 3 中列出了定量评估结果。可以看到，Control-GPT 模型可以在给定的一些规格下更好地控制物体的大小和位置。与几乎无法控制物体位置和尺寸的 Stable Diffusion 模型（SD-v1.5）相比，Control-GPT 将总体精度从 0% 提高到 14.18%。与现成的 ControlNet 相比，Control-GPT 在所有指标上也取得了更好的表现，获得了从 8.46% 到 4.18% 的整体改善。这些结果展示了本文的 LLM 集成框架在更细化和精确控制图像生成过程方面的潜力。

视觉化。下图 6 展示了定性评估结果，可以看到，ControlGPT 可以按照物体位置和尺寸的规范绘制物体。相比之下，ControlNet 也能遵循，但却很难生成正确的物体，而 Stable Diffusion 则无法遵循规范。

对空间关系的消融实验。研究者还探讨了模型是否对不同类型的空间关系（如左 / 右 / 上 / 下）有偏好，作为空间关系基准分析的一部分。从下表 4 中可以看出，Control-GPT 在 Visor Score 和物体准确性方面一直比所有的基线模型工作得更好。

多个物体之间的关系。研究者对 Control-GPT 生成多个物体的能力进行了进一步的评估，这些物体的空间关系由 prompt 指定。下图 7 展示了一些例子，Control-GPT 能理解不同物体之间的空间关系，并在 GPT-4 的帮助下将它们放入布局中，表现出了更好的性能。

可控性与图像逼真度。通常，在生成逼真图像与遵循精确布局之间往往存在着妥协，特别是对于分布外的文字 prompt。如下图 8 所示，（a）是一个例子，生成的图像完全遵循布局，但这导致了图像中的一些伪影；而在（b）中，照片往往看起来很逼真，但没有很好地遵循草图。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1090

浏览量
40609
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24906
GPT

GPT

+关注

关注
0

文章
364

浏览量
15555

原文标题：微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

ChatGPT升级　OpenAI史上最强大模型GPT-4发布

是 Generative Pre-trained Transformer 4 的缩写，即生成型预训练变换模型 4，是一个多模态大型语言模型。根据OpenAI的描述，GPT-4 支持接

发表于 03-15 18:15 •2912次阅读

OpenAI正式发布GPT-4：支持图像和文本的输入、处理中文的准确度大幅提升

ChatGPT 的经验教训迭代调整 GPT-4，从而在真实性和可控性等方面取得了有史以来最好的结果（尽管远非完美）。

发表于 03-16 09:46 •1945次阅读

GPT-4多模态模型发布，对ChatGPT的升级和断崖式领先

而且 GPT-4 是多模态的，同时支持文本和图像输入功能。此外，GPT-4 比以前的版本“更大”，这意味着其已经在更多的数据上进行了训练，并且在模型文件中有更多的权重，这也使得它的运行

发表于 03-17 10:31 •3509次阅读

语言模型GPT-4在北京高考题目上的测试结果

计算符号的表示。针对数学和物理中的公式，我们发现不管用文本类输入（如，t_0)还是用latex输入（如，）都不影响GPT-4的理解。为了统一，我们都尽可能采用latex表达问题，因此所有考试题目都由作者手敲公式输入，不可避免

发表于 03-22 14:13 •1451次阅读

关于GPT-4的产品化狂想

GPT-4是条件，而不是结果

发表于 03-26 10:48 •3082次阅读

GPT-4是这样搞电机的

GPT-4写电机基础程序没问题

发表于 04-17 09:41 •1105次阅读

微软GPT-4搜索引擎重大升级新Bing开放AI能力

GPT-4，GPT-4有更强悍的能力可以提供创意性文章创作和图像识别功能。微软马上跟进，宣布旗下的Bing Chat已经升级使用了OpenAI提供的

发表于 05-05 17:15 •2717次阅读

GPT-4 Copilot X震撼来袭！AI写代码效率10倍提升，码农遭降维打击

来源：新智元【导读】GPT-4加强版Copilot来了！刚刚，GitHub发布了新一代代码生成工具GitHubCopilotX，动嘴写代码不再是梦。微软真的杀疯了！上周，微软刚

发表于 04-04 16:35 •965次阅读

GPT-4已经会自己设计芯片了吗？

对话，纽约大学Tandon工程学院的研究人员就通过GPT-4造出了一个芯片。具体来说，GPT-4通过来回对话，就生成了可行的Verilog。随后将基准测试和处理器发送到Skywater 130 nm

发表于 06-20 11:51 •1058次阅读

GPT-3.5 vs GPT-4：ChatGPT Plus 值得订阅费吗国内怎么付费？

GPT-3.5 vs GPT-4：ChatGPT Plus值得订阅费吗？ChatGPT Plus国内如何付费？ ChatGPT-3.5一切都很好，但ChatGPT-4（通过ChatGPT Plus

发表于 08-02 12:09 •4430次阅读

GPT-4没有推理能力吗？

今年三月，OpenAI 重磅发布了 GPT-4 大模型，带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力，也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中，「GPT-4 是最为领

发表于 08-11 14:20 •996次阅读

微软Copilot（Bing Chat）将升级至GPT-4 Turbo

微软Copilot（Bing Chat）将升级至GPT-4 Turbo 微软广告和网络服务负责人Mikhail Parakhin在X平台透露，Copilot（Bing Chat）目前还在解决一些问题

发表于 11-28 18:37 •1224次阅读

OpenAI发布的GPT-4 Turbo版本ChatGPT plus有什么功能？

GPT-4的最新版本。OpenAI凭借承诺增强功能和成本效率的模型实现了巨大飞跃，为人工智能行业树立了新标准。我们来看看OpenAI带来了什么：文本和图像理解

发表于 12-05 17:57 •2712次阅读

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

起初，Copilot作为Bing Chat AI助手推出，初期采用GPT-3.5模型，随后升级至GPT-4取得显著进步，如今再次更新至性能卓越的GPT-4 Turbo模型，这无疑将使得Copilot功能再上新台阶。

发表于 03-13 13:42 •821次阅读

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

阿里云隆重推出了通义千问 2.5 版，宣称其“技术进步，全面超越GPT-4”，尤其是在中文环境中的多种任务（如文本理解、文本生成、知识问答及生活建议、临时聊天及对话以及安全风险评估）方面表现出色，超越了

发表于 05-09 14:17 •1114次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

评论

ChatGPT升级　OpenAI史上最强大模型GPT-4发布

OpenAI正式发布GPT-4：支持图像和文本的输入、处理中文的准确度大幅提升

GPT-4多模态模型发布，对ChatGPT的升级和断崖式领先

语言模型GPT-4在北京高考题目上的测试结果

关于GPT-4的产品化狂想

GPT-4是这样搞电机的

微软GPT-4搜索引擎重大升级新Bing开放AI能力

GPT-4 Copilot X震撼来袭！AI写代码效率10倍提升，码农遭降维打击

GPT-4已经会自己设计芯片了吗？

GPT-3.5 vs GPT-4：ChatGPT Plus 值得订阅费吗国内怎么付费？

GPT-4没有推理能力吗？

微软Copilot（Bing Chat）将升级至GPT-4 Turbo

OpenAI发布的GPT-4 Turbo版本ChatGPT plus有什么功能？

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

阿里云发布通义千问2.5大模型，多项能力超越GPT-4