OpenAI的研究者们提出了一种新的生成模型，能快速输出高清、真实的图像-电子发烧友网

风格迁移、变装模型这些改变图像属性的任务之前都是GAN的热门话题。现在，OpenAI的研究者们提出了一种新的生成模型，能快速输出高清、真实的图像。以下是论智对OpenAI博客的编译。

这篇文章介绍了我们的新成果——Glow，这是一个可逆的生成模型，其中使用了可反复的1×1卷积网络。2015年，我们曾推出过NICE，它是一种针对复杂高维进行建模的深度学习框架。在可逆模型的基础上，研究人员简化了NICE的网络结构，使模型能生成更加真实的高分辨率图像，并支持高效的采样，能发现可以用来控制数据属性的特征。下面让我们看看这个模型到底怎么玩：

这是年轻貌美的瑟曦。

黑化之后：

沧桑的瑟曦：

除此之外，你还能改变人物头发的颜色、眼睛大小和胡子。接下来，还有另一种玩法，即混合两张图：

碧昂斯和小李子Mix一下，长这样。

这是Glow模型的一个交互式Demo，感兴趣的读者可以移步官网体验试试，支持上传自己的照片调整脸部属性和合成两张图片。

动机

以上是研究者Prafulla Dhariwal和Durk Kingma的面部表情特征变化图。模型在训练时并没有被给予属性标签，但是它学会了一种隐藏空间，在其中特定的方向对应不同特征的变化，例如胡子的茂密程度、年龄、发色等等

生成模型与数据的观察有关，就像面对许多人脸图片，从中学习一种模型，了解数据是如何生成的。学习估计数据生成的过程需要学习数据中所有的结构，并且成功的模型可以合成和数据很相似的输出结果。精确的生成模型可应用的场景非常广泛，例如语音识别、文本分析合成、半监督学习和基于模型的控制。

Glow是一种可逆的生成模型，也可以称作“流式”生成模型，是NICE和RealNVP技术的扩展。目前，流式生成模型的关注度并不如GAN和VAE。

流式生成模型的几个优点有：

确切的隐藏变量推断和对数相似度评估。在VAE中，模型智能大致推断与数据点相对应的隐藏变量的值，而GAN根本就没有能推测隐藏变量的编码器。但是在可逆生成模型中，这一过程能精确地推算出来。这不但能输出一个精确的结果，还能对数据的对数相似度进行优化，而不是之前对数据的下限值优化。

高效的推理和合成。自回归的模型，例如PixelCNN同样是可逆的，但是这种模型的合成结果很难平行化，通常在平行硬件上很低效。而类似Glow的流式生成模型不论在推理还是合成方面都很高效。

为下游任务提供了有用的隐藏空间。自回归模型的隐藏层有着位置的边缘分布，使其更难对数据进行正确操作。在GAN中，数据点经常不能直接表现在隐藏空间中，因为它们没有编码器，可能无法支持数据分布。在可逆生成模型和VAE上就没有这种情况。

对节省内存有重大意义。可逆神经网络的计算梯度应该是恒定的内存量，而不是线性的。

结果

利用这种技术，我们在标准上比较了RealNVP和我们的Glow，RealNVP是在这之前表现最佳的流式生成模型。结果如下：

在含有30000张照片的数据集上训练之后，模型生成的样本

Glow模型能生成非常逼真的高分辨率图像，并且非常高效。模型在NVIDIA 1080 Ti GPU上只用130毫秒（0.13秒）就生成了一张256×256的照片。

在隐藏空间插值

我们还可以在两个随机面孔之间进行插值，利用编码器在两个图片之间进行编码，并从中间点中取样。注意，输入的是随机面孔，并不是模型中的样本，所以这也证明了模型可以支持完全的目标分布。

变脸过程十分流畅

在隐藏空间中处理

无需标签，我们就可以训练一个流式模型，然后利用学习到的隐藏表示进行下游任务。这些语义分布可以改变头发的颜色、图片风格、音调高低或者文本情感。由于流式模型拥有完美的编码器，你可以编码输入并且计算输入的平均隐藏向量。二者间向量的方向可以用来将输入向该方向改变。

这一过程只需要少量的标记数据，并且模型一训练完就能完成。在此之前，用GAN做这些需要训练一个单独的编码器，而VAE需要保证解码器和编码器适用于分布数据。其他类似CycleGAN直接学习表示变化的函数，也需要重新训练每一个变化。

# Train flow model on large, unlabelled dataset X

m = train(X_unlabelled)

# Split labelled dataset based on attribute, say blonde hair

X_positive, X_negative = split(X_labelled)

# Obtain average encodings of positive and negative inputs

z_positive = average([m.encode(x) for x in X_positive])

z_negative = average([m.encode(x) for x in X_negative])

# Get manipulation vector by taking difference

z_manipulate = z_positive - z_negative

# Manipulate new x_input along z_manipulate, by a scalar alpha in [-1,1]

z_input = m.encode(x_input)

x_manipulated = m.decode(z_input + alpha * z_manipulate)

用流式模型改变属性的简单代码

进步之处

相比之前的RealNVP，我们的进步之处主要是一个可逆的1×1卷积，以及删减掉其他元素，简化了模型。

RealNVP架构由两种图层组成：具有棋盘蒙版的图层和通道蒙版的图层。我们去除了棋盘样的图层，简化了结构。剩下的通道类型的蒙版起到以下作用：

在通道维度中改变输入的顺序

将输入分成A和B两部分，从特征维度的中部开始

将A输入到一个较浅的卷积神经网络。根据神经网络的输出线性地对B进行转换

连接A和B

可以看到我们的1×1卷积在性能上有大大的提升

除此之外，我们取消了批归一化，将它替换成激活归一图层。该图层利用基于数据的初始化，简单地转换并缩放激活，该初始化在给定初始小批量数据的情况下将激活规范化。

训练规模

我们的结构结合了多种优化，例如梯度检查点，可以让我们在较大规模上训练流式生成模型。我们使用Horovod轻松地将模型在多个机器上进行了训练；文章开头的Demo用了8个GPU。

未来方向

这篇研究表明，训练流式模型生成真实的高清图像是很有潜力的，并且经过学习的隐藏表示可以很容易用于下流任务。我们对未来工作的方向有以下计划：

1.在可能性上比其他模型更有竞争力

在对数相似度上，自适应模型和VAE的表现比流式模型要好，但是他们在采样和精确推理上不如流式模型。未来我们会尝试结合这几种模型，以弥补不足。

2.改进结构，提高计算和参数效率

为了生成逼真的高分辨率图像，人脸生成模型利用大约200M的参数和将近600个卷积层，训练起来成本很高。但是更浅的网络表现得又不好。使用自注意力结构或者进行渐进式训练可能会让训练成本更便宜。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1089

浏览量
40606
深度学习

深度学习

+关注

关注
73

文章
5522

浏览量
121683

原文标题：OpenAI提出能合成高清逼真图像的模型：“我们和GAN不一样！”

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

为什么生成模型值得研究

1.Why study generative modeling? 人们可能很自然地想知道为什么生成模型值得研究，尤其是那些只能够生成数据而不能提供密度函数估计的

发表于 09-15 06:03

一种解决连续问题的真实在线自然梯度行动者-评论家算法

策略梯度作为一种能有效解决连续空间决策问题的方法被广泛研究．然而，由于在策略估计过程中存在较大的方差，因此基于策略梯度的方法往往受到样本利用率低、收敛速度幔等限制．针对该问题。提出了真实

发表于 12-19 16:14 •1次下载

美研究者研发出了一种新型缝线能够监测伤口的愈合情况

据报道美研究者研发出了一种新型缝线，它能够监测伤口的愈合情况，并将数据发送到医生端，而不仅是普通的皮外伤，器官甚至是骨植入物都可以用同样的原理进行监测。

发表于 04-17 09:52 •1280次阅读

卫星图像进行目标识别仍然困难重重,美国提出了一种方法

为了解决模型无法检测像素过小的目标、难以生成全新比例的图像等限制，我们提出了一种经过优化的为卫星图像

发表于 06-30 09:41 •6526次阅读

OpenAI最新提出的可逆生成模型Glow

low是一种可逆生成模型（reversible generative model），也被称为基于流的生成模型（flow-based gene

发表于 07-11 09:46 •7384次阅读

OpenAI提出了一种回报设置方法RND

在开发RND之前，OpenAI的研究人员和加州大学伯克利分校的学者进行了合作，他们测试了在没有环境特定回报的情况下，智能体的学习情况。因为从理论上来说，好奇心提供了一种更简单的方法来教授智能体如何与各种环境进行交互，它不需要人为

发表于 11-05 15:15 •3262次阅读

JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型

研究人员的主要目的在于训练一个生成模型，将模特在当前姿势上的图像迁移到其他的目标姿势上去，实现对于衣着等商品的全面展示。

发表于 08-02 14:50 •2608次阅读

微软亚洲研究院的研究员们提出了一种模型压缩的新思路

近日，来自微软亚洲研究院自然语言计算组的研究员们提出了一种与显式地利用蒸馏损失函数来最小化教师模型

发表于 11-24 09:48 •1713次阅读

OpenAI发布根据文字生成图像的人工智能系统

据报道，旧金山人工智能研究公司OpenAI已经开发了一种新系统，能根据短文本来生成图像。

发表于 01-07 09:50 •1350次阅读

一种具有语义区域风格约束的图像生成框架

。文中提出了种具有语义区域风格约東的图像生成框架，利用条件对抗生成网络实现了图像分区域的自适应风

发表于 04-13 15:47 •5次下载

一种全新的遥感图像描述生成方法

遥感图像描述生成是同时涉及计算机视觉和自然语言处理领域的热门研究话题，其主要工作是对于给定的图像自动地生成

发表于 04-20 11:21 •2次下载

一种基于改进的DCGAN生成SAR图像的方法

针对SAR图像识别软件，通过改进 DCGAN模型单生成器与单判别器对抗的结构，采用多生成器与单判别器进行对抗，设计了控制各生成器

发表于 04-23 11:01 •21次下载

基于生成式对抗网络的图像补全方法

图像补全是数字图像处理领域的重要研究方向，具有广阔的应用前景。提出了一种基于生成式对抗网络（GA

发表于 05-19 14:38 •14次下载

识别「ChatGPT造假」，效果超越OpenAI：北大、华为的AI生成检测器来了

解放无数文书的双手，它以假乱真的强劲能力也为一些不法分子所利用，造成了一系列社会问题：来自北大、华为的研究者们提出了

发表于 06-06 11:05 •513次阅读

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

因此，本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散

发表于 01-30 16:20 •984次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

OpenAI的研究者们提出了一种新的生成模型，能快速输出高清、真实的图像

评论

为什么生成模型值得研究

一种解决连续问题的真实在线自然梯度行动者-评论家算法

美研究者研发出了一种新型缝线能够监测伤口的愈合情况

卫星图像进行目标识别仍然困难重重,美国提出了一种方法

OpenAI最新提出的可逆生成模型Glow

OpenAI提出了一种回报设置方法RND

JD和OPPO的研究人员们提出了一种姿势引导的时尚图像生成模型

微软亚洲研究院的研究员们提出了一种模型压缩的新思路

OpenAI发布根据文字生成图像的人工智能系统

一种具有语义区域风格约束的图像生成框架

一种全新的遥感图像描述生成方法

一种基于改进的DCGAN生成SAR图像的方法

基于生成式对抗网络的图像补全方法

识别「ChatGPT造假」，效果超越OpenAI：北大、华为的AI生成检测器来了

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！