DALL-E和生成式AI的未来-电子发烧友网

DALL-E 等生成式模型的「高光时刻」已经出现，作为发明者，Ramesh 表示：「我们第一次尝试这个研究方向，是想看看能有什么作为。现在想来，恍如昨日。」

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前，该领域仅有一篇论文，即《零样本文本到图像生成》（Zero-Shot Text-to-Image Generation）。

2021 年 1 月 5 日，也就是两年前，随着这篇论文和网站演示的发布，OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然语言表达的概念创建图像」的神经网络。而据报道，OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

图源自 DALL-E。

经过训练，Transformer 语言模型 GPT-3 的 120 亿参数版本可以使用文本图像对数据集从文本描述中生成图像。VentureBeat 记者 Khari Johnson 在描述时说，其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」，并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示，自那以后，整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展，这算是一种很保守的说辞。随后便是扩散模型的迅速崛起，其出现改变了去年 4 月发布的 DALL-E 2，以及它的开源对手：Diffusion 和 Midjourney 原有的格局。

Ramesh 告诉 VentureBeat：「我们第一次尝试这个研究方向，想看看能有什么作为，现在感觉恍如昨日。我知道这项技术将会对消费者产生影响，也会帮助到并对许多不同的应用程序，但我仍然对其发展速度之快感到惊讶。」

如今，生成式模型正在逐渐发展到「图像生成和多种模态的高光时刻」。他说：「我很高兴能够为所有这些即将出现的应用做点什么。」

与 CLIP 合作开发的原创研究

CLIP 是与 DALL-E 1 研究共同开发和公布的，它是一个基于零样本学习的独立模型，实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图像进行训练，能够使用自然语言进行分类基准测试并对 DALL-E 结果进行排名。

当然，很多早期迹象表明，当前即将迎来文字到图像的进步。英属哥伦比亚大学（University of British Columbia）的计算机科学副教授 Jeff Clune 说道：「多年来的研究显示，这种未来近在咫尺。」2016 年，他的团队制作出了他所说的第一批与真实图像难以分辨的合成图像。

他说：「我的意思是，几年后，人们可以描述任何想要的图像，然后由 AI 来生成它，比如特朗普面带假笑地接受普京的贿赂。」

Air Street Capital 的合伙人 Nathan Benaich 认为，生成式 AI 自始至终都是 AI 的核心部分。他在接受 VentureBeat 采访时表示：「值得一提的是，2014 年生成式对抗网络（GANs）的开发和 DeepMind 2016 年的 WaveNet 等研究已经开始展示 AI 模型如何分别从头生成新的图像和音频。」

尽管如此，最初的 DALL-E 论文「在当时给人留下了深刻的印象」，未来学家、作家和 AI 研究员 Matt White 补充道。他说：「虽然这不是文本到图像合成领域的首项工作，但 OpenAI 不仅仅向 AI 研究领域推广他们工作的方法，更是将推广范围扩大到公众层面，这自然也是其颇受关注的原因所在。」

尽可能地推动 DALL-E 研究

Ramesh 说，他的初心始终是尽可能地推动这项研究。

他说：「我们觉得文本到图像的生成很有意思，作为人类，我们能够通过一句话来描述我们在现实生活中可能遇到的任何情况，也可以是不可能发生的幻想场景，或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图像，并且和人类一样做出推断。」

Ramesh 还补充道，对原始 DALL-E 的主要研究影响之一是 VQ-VAE，这是一种由 DeepMind 研究人员 Aaron van den Oord 首创的技术：像语言模型所训练的 token 一样，将图像也分解为 token。

他解释说：「所以我们可以采用像 GPT 这样的 transformer，训练它的目的是为了预测下一个单词，并用这些额外的图像 token 来增强它的语言 token。这让我们可以应用同样的技术来生成图像。」

他说，DALL-E 会带给人们惊喜，因为「在语言模型中看到泛化的例子是一回事，但当在图像生成中看到它时，它就会更加直观且具有更深的影响力。」

DALL-E 2 向扩散模型的转变

但最初 DALL-E 研究发表时，Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已经在研究在 GLIDE（一种新的 OpenAI 扩散模型）的修改版本中使用扩散模型。

这导致 DALL-E 2 的架构与第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解释的那样，「DALL-E 1 使用离散变分自编码器（dVAE）、下一个 token 预测和 CLIP 模型重新排序，而 DALL-E 2 直接使用 CLIP 嵌入，并通过类似 GLIDE 的扩散来解码图像。」

Ramesh 说：「将扩散模型和 DALL-E 结合起来，看似是一件自然而然的事，因为扩散模型有很多优点，其中最明显的特点是用扩散模型能够利落而又巧妙地修复图像。」

他解释道，在 DALL-E 2 中加入了在开发 GLIDE 时使用的一种特殊技术 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。

「当 Alex 第一次尝试时，没有人想到结果会有这么大的改善。我最初只期望 DALL-E 2 能成为 DALL-E 的更新版本，但让我惊讶的是，它已经开始让用户受益了。」

2022 年 4 月 6 日，当 AI 社群和普通用户第一次看到 DALL-E 2 的图像输出时，他们中的大部分都惊叹于图像质量的差异。

「竞争激烈，喜忧参半」

Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat，2021 年 1 月发布的 DALL-E 是第一波文本到图像研究的浪潮，这些研究建立在语言和图像处理的基本进展之上，包括变分自动编码器和 autoregressive transformers。DALL-E 2 发布时，「扩散是我们行内人意料之外的突破，它切实地提升了游戏质量，」她说。

她补充说，自从最初的 DALL-E 研究论文发表以来，过去两年一直是「竞争激烈，喜忧参半」。

「对如何建立语言和图像模型的关注是以如何最好地获取模型的数据为代价的，」她还指出，在现代文本到图像的进展中，个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念，而没有为艺术家提供任何追索权，」她如此总结道。

DALL-E 没有公开源代码，这导致其他系统开发了开源的文本转图像选项，这在 2022 年夏天前引起了轰动。

最初的 DALL-E「很有意思，但无法使用」，Stability AI 的创始人 Emad Mostaque 说，他在 8 月发布了开源文本到图像生成器 Stable Diffusion 的第一个迭代，并说「只有我的团队训练的模型可以称作开源」。Mostaque 补充说：「我们从 2021 年夏天开始积极资助和支持它。」

展望未来，White 认为，即使不久将要迎来新一代，DALL-E 的未来依旧任重而道远。

「DALL-E 2 在稳定性、质量和道德层面都存在问题，」，他指出，这些问题是相互交织且互相影响的，像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果（即红狗穿棕色衬衫，红狗穿红色衬衫或完全不同的颜色）。此外，他补充道，DALL-E 2 在面部和身体构造、图像文本生成的一致性方面仍然存在困难，「特别是当遇到较长的单词时。」

DALL-E 和生成式 AI 的未来

Ramesh 希望更多的人了解到 DALL-E 2 的技术工作原理，这样可以消除很多误解。

他说：「在大众眼里。这个模型的工作方式是：它在某处有个图像数据库，它生成图像的方式是将这些图像片段剪切粘贴在一起，从而创造出新的东西。但实际上，它的工作方式更接近于人类，当模型接受图像训练时，它会学习所有这些概念的抽象表征。」

他还解释道：「在我们从头开始生成图像时，我们不再使用训练数据。扩散模型从他们试图生成物的模糊近似开始，经过多重步骤，逐步添加细节，就像艺术家总是从一个粗略的草图开始发挥，随着时间的推移再慢慢充实他的作品。」

他说，助艺术家创作一臂之力也是 DALL-E 自始至终的目标。

「过去，我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具，就像 Codex 是程序员的副驾驶一样。据我们所知，一些艺术家认为在创建想法原型时，DALL-E 非常有用，因为他们通常会花几个小时甚至几天的时间来探索某个概念，随后才决定采用它，而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

Ramesh 说，他希望越来越多的人能够在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

「通过（OpenAI 的）ChatGPT，我认为我们已经极大地扩展了这些 AI 工具的功能，并让很多人接触到它。希望随着时间的推移，那些想运用我们的技术做事的人可以很毫不费力地通过我们的网站获取它，并找到方法来使用其构建出他们心中所想。」

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉