如何去解决文本到图像生成的跨模态对比损失问题？-电子发烧友网

Google提出了一个跨模态对比学习框架来训练用于文本到图像合成的 GAN 模型，用于研究解决生成的跨模态对比损失问题。

从文本到图像的自动生成，如何训练模型仅通过一段文本描述输入就能生成具体的图像，是一项非常具有挑战性的任务。

与其它指导图像创建的输入类型相比，描述性句子是一种更直观、更灵活的视觉概念表达方式。强大的自动文本到图像的生成系统可以成为快速、有效的内容生产、制作工具，用于更多具有创造性的应用当中。

在CVPR 2021中，Google提出了一个跨模态对比生成对抗网络（XMC-GAN），训练用于文本到图像合成的 GAN 模型，通过模态间与模态内的对比学习使图像和文本之间的互信息最大化，解决文本到图像生成的跨模态对比损失问题。

XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习

XMC-GAN 被成功应用于三个具有挑战性的数据集：一个是MS-COCO 图像描述集合，另外两个是用Localized Narratives注释的数据集，一个是包括MS-COCO 图像（称为LN-COCO），另一个描述开放图像数据（LN-OpenImages）。结果显示 XMC-GAN生成图像所描绘的场景相比于使用其它技术生成的图像质量更高，在每个方面都达到了最先进的水平。

MS-COCO对图像质量和文本对齐的人工评估

此外，XMC-GAN还在 LN-OpenImages 上进行了一系列训练和评估，这相比于 MS-COCO 更具有挑战性，由于数据集更大，图像涵盖主题范围更加广泛且复杂。

对于人类评估和定量指标，XMC-GAN 在多个数据集模型中相较之前有显著的改进。可以生成与输入描述非常匹配的高质量图像，包括更长，更详细的叙述，同时端到端模型的复杂度也相对较为简单，这代表了从自然语言描述生成图像的创造性应用的重大进步。

责任编辑：lq6

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1089

浏览量
40601
GaN

GaN

+关注

关注
19

文章
1974

浏览量
74469

原文标题：XMC-GAN：从文本到图像的跨模态对比学习

文章出处：【微信号：livevideostack，微信公众号：LiveVideoStack】欢迎添加关注！文章转载请注明出处。

一文详解视觉语言模型

视觉语言模型（VLM）是一种多模态、生成式 AI 模型，能够理解和处理视频、图像和文本。

发表于 02-12 11:13 •146次阅读

#新年新气象，大家新年快乐！#AIGC入门及鸿蒙入门

，基于扩散模型，能够生成与给定文本描述相符的图像。鸿蒙系统入门 1.基础知识：鸿蒙系统（HarmonyOS）是华为推出的一款分布式操作系统，旨在实现跨设备、

发表于 01-13 10:46

AIGC入门及鸿蒙入门

模型，能够生成与给定文本描述相符的图像。鸿蒙系统入门 1. 基础知识：鸿蒙系统（HarmonyOS）是华为推出的一款分布式操作系统，旨在实现跨设备、

发表于 01-13 10:32

浅析OpenVINO 2024.5的新功能

，事实上在安全、监控或医疗保健等某些领域至关重要。它代表了从处理文本到处理不同输入和生成不同形式输出的重大演变。例如，多模态模型可以接收长视频，并以图像或音频片段的形式输出关键信息。

发表于 11-25 17:12 •325次阅读

生成式AI工具作用

生成式AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此，petacloud.ai小编为您整理生成式AI工具作用。

发表于 10-28 11:19 •344次阅读

如何使用 Llama 3 进行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）进行文本生成，可以通过以下几种方式实现，取决于你是否愿意在本地运行模型或者使用现成的API

发表于 10-27 14:21 •577次阅读

AIGC与传统内容生成的区别

AIGC ：主要面向非结构化数据的生成，如自然语言文本、图像、音频、视频等。这类数据规模更大，内在结构更复杂，对处理技术提出了更高要求。传统内容生成：主要处理结构化数据，如

发表于 10-25 15:13 •602次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多模态

发表于 10-18 09:39 •614次阅读

Meta发布多模态LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一项重要技术突破，成功推出了多模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息，还实现了对图像内容的精准理解，标志着Meta在AI多

发表于 09-27 11:44 •463次阅读

鸿蒙ArkTS声明式开发：跨平台支持列表【半模态转场】模态转场设置

通过bindSheet属性为组件绑定半模态页面，在组件插入时可通过设置自定义或默认的内置高度确定半模态大小。

发表于 06-12 21:09 •1191次阅读

阿里云通义大模型助力“小爱同学”强化多模态AI生成能力

小米的人工智能助手“小爱同学”近期与阿里云通义大模型达成战略合作，共同提升其多模态AI生成能力，特别是在图片生成与理解方面。这次合作不仅将强化“小爱同学”的功能，还将在小米的多个产品线，包括小米汽车和手机等设备上得到实际应用。

发表于 05-13 09:19 •984次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多

发表于 04-18 17:01 •673次阅读

深度学习生成对抗网络（GAN）全解析

GANs真正的能力来源于它们遵循的对抗训练模式。生成器的权重是基于判别器的损失所学习到的。因此，生成器被它生成的

发表于 03-29 14:42 •4839次阅读

NVIDIA Edify多模态架构升级，引领视觉生成式AI新纪元

NVIDIA近日宣布，其用于视觉生成式AI的多模态架构Edify迎来重大更新，为开发者和视觉内容提供商带来前所未有的新功能。其中，3D资产生成功能的引入，极大地提升了AI图像

发表于 03-27 10:22 •531次阅读

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI的最新图像生成模型Stable Cascade承诺比其业界领先的前身Stable Diffusion更快、更强大，而Stable Diffusion是许多其他文本到

发表于 02-19 16:03 •1011次阅读