顶刊TPAMI 2023！生成式AI与图像合成综述发布！-电子发烧友网

生成式AI作为当前人工智能领域的前沿技术，已被广泛的应用于各类视觉合成任务。

随着DALL-E2，Stable Diffusion和DreamFusion的发布，AI作画和3D合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式AI技术深刻地拓展了人们对于AI图像生成能力的认识，那么这些生成式AI方法是如何生成以假乱真的视觉效果？又是如何利用深度学习和神经网络技术来实现画作、3D生成以及其他创造性任务的呢？我们的综述论文将会给您提供这些问题的答案。

在第一章节，该综述描述了多模态图像合成与编辑任务的意义和整体发展，以及本论文的贡献与总体结构。

在第二章节，根据引导图片合成与编辑的数据模态，该综述论文介绍了比较常用的视觉引导，文字引导，语音引导，还有近期DragGAN提出的控制点引导等，并且介绍了相应模态数据的处理方法。

在第三章节，根据图像合成与编辑的模型框架，该论文对目前的各种方法进行了分类，包括基于GAN的方法，扩散模型方法，自回归方法，和神经辐射场（NeRF）方法。

由于基于GAN的方法一般使用条件GAN和 GAN 反演，因此该论文进一步根据控制条件的融合方式，模型的结构，损失函数设计，多模态对齐，和跨模态监督进行了详细描述。

近期，火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN，扩散式生成模型拥有一些良好的性质，比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

相比于基于GAN和扩散模型的方法，自回归模型方法能够更加自然的处理多模态数据，以及利用目前流行的Transformer模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为token序列，然后自回归式地建模token的分布。由于文本和语音等数据都能表示为token并作为自回归建模的条件，因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

以上方法主要聚焦于2D图像的多模态合成与编辑。近期随着神经辐射场（NeRF）的迅速发展，3D感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性，3D感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化NeRF，生成式NeRF两种方法对现有工作进行了分类与总结。

随后，该综述对以上四种模型方法的进行了比较和讨论。总体而言，相比于GAN，目前最先进的模型更加偏爱自回归模型和扩散模型。而NeRF在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

在第四章节，该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注，并且针对各模态典型任务（语义图像合成，文字到图像合成，语音引导图像编辑）对当前方法进行了定量的比较。同时也对多种模态同时控制生成的结果进行了可视化。

在第五章节，该综述对此领域目前的挑战和未来方向进行了探讨和分析，包括大规模的多模态数据集，准确可靠的评估指标，高效的网络架构，以及3D感知的发展方向。

在第六和第七章节，该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1086

浏览量
40492
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24726
生成式AI

生成式AI

+关注

关注
0

文章
505

浏览量
487

原文标题：顶刊TPAMI 2023！生成式AI与图像合成综述发布！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

搜狗与新华社联合发布全球首个站立式AI合成主播

，新版的AI合成主播采用了“搜狗分身”领先的wavernn波形建模技术，可以实现逼真的语音合成效果，让AI的声音更具有真实情感和表现力。　　而在图像

发表于 02-25 09:28

Stability AI开源图像生成模型Stable Diffusion

Stable Diffusion 的很多用户已经公开发布了生成图像的样例，Stability AI 的首席开发者 Katherine Crowson 在推特上分享了许多

发表于 09-21 15:37 •2967次阅读

英伟达 GTC 2023上黄仁勋谈生成式AI

英伟达 GTC 2023上黄仁勋谈生成式AI 黄教主在GTC 2023上大谈特谈生成

发表于 03-22 17:14 •1874次阅读

什么是生成式AI？生成式AI的四大优势

生成式AI是一种特定类型的AI，专注于生成新内容，如文本、图像和音乐。这些系统在大型数据集上进行

发表于 05-29 14:12 •4541次阅读

虹软图像深度恢复技术与生成式AI的创新生成式AI助力

当前，生成式人工智能（AI）技术的快速发展令人瞩目。它能够理解人类的描述，并在短时间内生成逼真的图像和视频。在

发表于 06-21 09:06 •454次阅读

SIGGRAPH 2023 | 生成式 AI 开启汽车行业新时代，为设计、工程、生产和销售带来改进

AI 技术的进步将改变汽车生命周期，大大提高生产力，并激发创新。生成内容和代码、创建图像和视频、使用合成数据测试算法等生成

发表于 08-14 17:20 •678次阅读

解决医疗大模型训练数据难题，商汤最新研究成果登「Nature」子刊

生成式AI正为医疗大模型迭代按下加速键。近日，商汤科技联合行业合作伙伴，结合生成式人工智能和医疗图像

发表于 09-12 18:50 •953次阅读

在线研讨会 | 9 月 19 日，利用 GPU 加速生成式 AI 图像内容生成

的工作效率，也为社会发展带来了巨大的推动力。在本次课程中，我们将深入介绍生成式 AI，特别是文字生成图像的技术。我们希望你在此学习过程中找

发表于 09-14 17:40 •490次阅读

德勤中国与亚马逊云科技联合成立生成式AI联合实验室

北京2023年11月16日 /美通社/ -- 德勤中国与亚马逊云科技共同宣布创建生成式AI联合实验室。双方将整合优势资源，围绕"1+3"展开合作。"1" 是以亚马逊云科技的坚实技术为

发表于 11-17 09:43 •749次阅读

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精

发表于 03-25 16:16 •898次阅读

商汤集团2023全年业绩亮眼，生成式AI业务爆发式增长

商汤集团近日发布了截至2023年12月31日的经审核全年业绩报告，展现了集团在AI领域的强劲增长势头。在全新的战略布局下，商汤明确了三大业务板块：生成

发表于 03-27 09:14 •602次阅读

OpenAI发布图像检测分类器，可区分AI生成图像与实拍照片

据OpenAI介绍，初步测试结果表明，该分类器在辨别非AI生成图像与DALL·E 3生成图像时，成功率高达近98%，仅有不到0.5%的非

发表于 05-09 09:57 •473次阅读

生成式AI的定义和特征

行为，生成全新的、具有实际意义的数据或内容。这种技术已经在自然语言处理、图像生成、音频合成等多个领域展现出巨大的潜力和应用价值。本文将详细探讨生成

发表于 07-05 17:33 •1063次阅读

Freepik携手Magnific AI推出AI图像生成器

近日，设计资源巨头Freepik携手Magnific AI，共同推出了革命性的AI图像生成器——Freepik Mystic，这一里程碑式的

发表于 08-30 16:23 •1145次阅读

生成式AI工具作用

生成式AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此，petacloud.

发表于 10-28 11:19 •250次阅读