0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DALL-E和生成式AI的未来

CVer 来源:机器之心 2023-01-30 15:47 次阅读

DALL-E 等生成式模型的「高光时刻」已经出现,作为发明者,Ramesh 表示:「我们第一次尝试这个研究方向,是想看看能有什么作为。现在想来,恍如昨日。」

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前,该领域仅有一篇论文,即《零样本文本到图像生成》(Zero-Shot Text-to-Image Generation)。

2021 年 1 月 5 日,也就是两年前,随着这篇论文和网站演示的发布,OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然语言表达的概念创建图像」的神经网络。而据报道,OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

49928b48-9f76-11ed-bfe3-dac502259ad0.png

图源自 DALL-E。

经过训练,Transformer 语言模型 GPT-3 的 120 亿参数版本可以使用文本图像对数据集从文本描述中生成图像。VentureBeat 记者 Khari Johnson 在描述时说,其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」,并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

OpenAI 研究员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示,自那以后,整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展,这算是一种很保守的说辞。随后便是扩散模型的迅速崛起,其出现改变了去年 4 月发布的 DALL-E 2,以及它的开源对手:Diffusion 和 Midjourney 原有的格局。

Ramesh 告诉 VentureBeat:「我们第一次尝试这个研究方向,想看看能有什么作为,现在感觉恍如昨日。我知道这项技术将会对消费者产生影响,也会帮助到并对许多不同的应用程序,但我仍然对其发展速度之快感到惊讶。」

如今,生成式模型正在逐渐发展到「图像生成和多种模态的高光时刻」。他说:「我很高兴能够为所有这些即将出现的应用做点什么。」

与 CLIP 合作开发的原创研究

CLIP 是与 DALL-E 1 研究共同开发和公布的,它是一个基于零样本学习的独立模型,实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图像进行训练,能够使用自然语言进行分类基准测试并对 DALL-E 结果进行排名。

当然,很多早期迹象表明,当前即将迎来文字到图像的进步。英属哥伦比亚大学(University of British Columbia)的计算机科学副教授 Jeff Clune 说道:「多年来的研究显示,这种未来近在咫尺。」2016 年,他的团队制作出了他所说的第一批与真实图像难以分辨的合成图像。

他说:「我的意思是,几年后,人们可以描述任何想要的图像,然后由 AI 来生成它,比如特朗普面带假笑地接受普京的贿赂。」

Air Street Capital 的合伙人 Nathan Benaich 认为,生成式 AI 自始至终都是 AI 的核心部分。他在接受 VentureBeat 采访时表示:「值得一提的是,2014 年生成式对抗网络(GANs)的开发和 DeepMind 2016 年的 WaveNet 等研究已经开始展示 AI 模型如何分别从头生成新的图像和音频。」

尽管如此,最初的 DALL-E 论文「在当时给人留下了深刻的印象」,未来学家、作家和 AI 研究员 Matt White 补充道。他说:「虽然这不是文本到图像合成领域的首项工作,但 OpenAI 不仅仅向 AI 研究领域推广他们工作的方法,更是将推广范围扩大到公众层面,这自然也是其颇受关注的原因所在。」

尽可能地推动 DALL-E 研究

Ramesh 说,他的初心始终是尽可能地推动这项研究。

他说:「我们觉得文本到图像的生成很有意思,作为人类,我们能够通过一句话来描述我们在现实生活中可能遇到的任何情况,也可以是不可能发生的幻想场景,或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图像,并且和人类一样做出推断。」

Ramesh 还补充道,对原始 DALL-E 的主要研究影响之一是 VQ-VAE,这是一种由 DeepMind 研究人员 Aaron van den Oord 首创的技术:像语言模型所训练的 token 一样,将图像也分解为 token。

他解释说:「所以我们可以采用像 GPT 这样的 transformer,训练它的目的是为了预测下一个单词,并用这些额外的图像 token 来增强它的语言 token。这让我们可以应用同样的技术来生成图像。」

他说,DALL-E 会带给人们惊喜,因为「在语言模型中看到泛化的例子是一回事,但当在图像生成中看到它时,它就会更加直观且具有更深的影响力。」

DALL-E 2 向扩散模型的转变

但最初 DALL-E 研究发表时,Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已经在研究在 GLIDE(一种新的 OpenAI 扩散模型)的修改版本中使用扩散模型。

这导致 DALL-E 2 的架构与第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解释的那样,「DALL-E 1 使用离散变分自编码器 (dVAE)、下一个 token 预测和 CLIP 模型重新排序,而 DALL-E 2 直接使用 CLIP 嵌入,并通过类似 GLIDE 的扩散来解码图像。」

Ramesh 说:「将扩散模型和 DALL-E 结合起来,看似是一件自然而然的事,因为扩散模型有很多优点,其中最明显的特点是用扩散模型能够利落而又巧妙地修复图像。」

他解释道,在 DALL-E 2 中加入了在开发 GLIDE 时使用的一种特殊技术 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。

「当 Alex 第一次尝试时,没有人想到结果会有这么大的改善。我最初只期望 DALL-E 2 能成为 DALL-E 的更新版本,但让我惊讶的是,它已经开始让用户受益了。」

2022 年 4 月 6 日,当 AI 社群和普通用户第一次看到 DALL-E 2 的图像输出时,他们中的大部分都惊叹于图像质量的差异。

「竞争激烈,喜忧参半」

Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat,2021 年 1 月发布的 DALL-E 是第一波文本到图像研究的浪潮,这些研究建立在语言和图像处理的基本进展之上,包括变分自动编码器和 autoregressive transformers。DALL-E 2 发布时,「扩散是我们行内人意料之外的突破,它切实地提升了游戏质量,」她说。

她补充说,自从最初的 DALL-E 研究论文发表以来,过去两年一直是「竞争激烈,喜忧参半」。

「对如何建立语言和图像模型的关注是以如何最好地获取模型的数据为代价的,」她还指出,在现代文本到图像的进展中,个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念,而没有为艺术家提供任何追索权,」她如此总结道。

DALL-E 没有公开源代码,这导致其他系统开发了开源的文本转图像选项,这在 2022 年夏天前引起了轰动。

最初的 DALL-E「很有意思,但无法使用」,Stability AI 的创始人 Emad Mostaque 说,他在 8 月发布了开源文本到图像生成器 Stable Diffusion 的第一个迭代,并说「只有我的团队训练的模型可以称作开源」。Mostaque 补充说:「我们从 2021 年夏天开始积极资助和支持它。」

展望未来,White 认为,即使不久将要迎来新一代,DALL-E 的未来依旧任重而道远。

「DALL-E 2 在稳定性、质量和道德层面都存在问题,」,他指出,这些问题是相互交织且互相影响的,像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果(即红狗穿棕色衬衫,红狗穿红色衬衫或完全不同的颜色)。此外,他补充道,DALL-E 2 在面部和身体构造、图像文本生成的一致性方面仍然存在困难,「特别是当遇到较长的单词时。」

DALL-E 和生成式 AI 的未来

Ramesh 希望更多的人了解到 DALL-E 2 的技术工作原理,这样可以消除很多误解。

他说:「在大众眼里。这个模型的工作方式是:它在某处有个图像数据库,它生成图像的方式是将这些图像片段剪切粘贴在一起,从而创造出新的东西。但实际上,它的工作方式更接近于人类,当模型接受图像训练时,它会学习所有这些概念的抽象表征。」

他还解释道:「在我们从头开始生成图像时,我们不再使用训练数据。扩散模型从他们试图生成物的模糊近似开始,经过多重步骤,逐步添加细节,就像艺术家总是从一个粗略的草图开始发挥,随着时间的推移再慢慢充实他的作品。」

他说,助艺术家创作一臂之力也是 DALL-E 自始至终的目标。

「过去,我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具,就像 Codex 是程序员的副驾驶一样。据我们所知,一些艺术家认为在创建想法原型时,DALL-E 非常有用,因为他们通常会花几个小时甚至几天的时间来探索某个概念,随后才决定采用它,而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

Ramesh 说,他希望越来越多的人能够在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

「通过(OpenAI 的)ChatGPT,我认为我们已经极大地扩展了这些 AI 工具的功能,并让很多人接触到它。希望随着时间的推移,那些想运用我们的技术做事的人可以很毫不费力地通过我们的网站获取它,并找到方法来使用其构建出他们心中所想。」

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1083

    浏览量

    40418
  • 数据库
    +关注

    关注

    7

    文章

    3767

    浏览量

    64279
  • 生成式AI
    +关注

    关注

    0

    文章

    489

    浏览量

    459

原文标题:DALL-E发明者:我对其两年来产生的影响感到惊讶

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    IDC生成AI白皮书亮点速递

    在数字化浪潮中,生成 AI 正成为推动创新和变革的关键力量。本文将分享由 IDC 发布的《技术革新引领未来——生成
    的头像 发表于 11-04 10:12 180次阅读

    生成AI工具作用

    生成AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理
    的头像 发表于 10-28 11:19 183次阅读

    STAR AI进军美股科技星智能领跑生成AI赛道

    正在改变着人类的生存方式,基于生成AI的工具导致了内容生产的爆炸性增长。 据Bloomberg Intelligence报告预测,预计到2035年,全球生成
    的头像 发表于 08-22 08:56 259次阅读
    STAR <b class='flag-5'>AI</b>进军美股科技星智能领跑<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>赛道

    生成AI与传统AI的主要区别

    随着人工智能技术的飞速发展,生成AI(Generative AI)逐渐崭露头角,并与传统AI(也称为“规则驱动的
    的头像 发表于 07-05 17:35 2125次阅读

    商汤发布《2024生成AI赋能教育未来》白皮书

    生成AI正在各个行业中展现出巨大的应用前景。在关系国计民生的教育行业,生成AI能够催生哪些创
    的头像 发表于 06-29 09:48 778次阅读

    原来这才是【生成AI】!!

    随着ChatGPT、文心一言等AI产品的火爆,生成AI已经成为了大家茶余饭后热议的话题。可是,为什么要在AI前面加上“
    的头像 发表于 06-05 08:04 290次阅读
    原来这才是【<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>】!!

    OpenAI发布图像检测分类器,可区分AI生成图像与实拍照片

    据OpenAI介绍,初步测试结果表明,该分类器在辨别非AI生成图像与DALL·E 3生成图像时,成功率高达近98%,仅有不到0.5%的非
    的头像 发表于 05-09 09:57 424次阅读

    生成AI的「七宗罪」!

    面对生成AI日渐增长的「罪恶」,我们该如何解决问题?
    的头像 发表于 05-07 16:34 1728次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>的「七宗罪」!

    联发科联合生态伙伴推出《生成AI手机产业白皮书》,生成AI手机发展路线明确了!

    近日,联发科天玑开发者大会2024(MDDC)在深圳盛大召开,会议以“AI予万物”为主题,吸引了众多移动生态领域的先锋厂商和开发者参与。与会者围绕端侧生成AI技术与
    的头像 发表于 05-07 16:34 404次阅读
    联发科联合生态伙伴推出《<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>手机产业白皮书》,<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>手机发展路线明确了!

    让交通运输更安全、更高效,人工智能可以做些什么?

    一、前言 您或许已经尝试过在ChatGPT和Dall-E生成人工智能服务中创建一些酷炫的图片或优美的文章。在交通运输方面,工程师们也借助AI工具构思了一些关于自行车安全气囊或其他道
    的头像 发表于 03-25 14:17 400次阅读
    让交通运输更安全、更高效,人工智能可以做些什么?

    微软封禁员工讨论OpenAI DALL-E 3模型漏洞

    琼斯去年底在进行自主研究时,发现OpenAI的图像生成模型DALL-E 3存在一个漏洞,漏洞利用者可以越过AI保护墙来制作色情内容。他将此情况报告给微软和OpenAI,并发文警示这种攻击可能给公众带来危害,要求他们暂停使用
    的头像 发表于 02-02 14:38 536次阅读

    CES亮点:AI赋能与产业创新 | DALL-E 3、SD等20+图像生成模型综述

    随着科技飞速发展,CES(国际消费电子展)已然成为全球科技产业的风向标,每年的CES大会都是业界瞩目的盛事。回顾2024年CES大会,不难发现其亮点纷呈,其中以人工智能的深度赋能为最引人注目之处。AI技术的深入应用成为CES大会上的一大亮点,各大厂商纷纷展示了在AI领域的
    的头像 发表于 01-25 10:07 1001次阅读
    CES亮点:<b class='flag-5'>AI</b>赋能与产业创新 | <b class='flag-5'>DALL-E</b> 3、SD等20+图像<b class='flag-5'>生成</b>模型综述

    生成AI对智能家居的影响

    电子发烧友网站提供《生成AI对智能家居的影响.pdf》资料免费下载
    发表于 01-02 14:50 17次下载

    驾驭创造的力量: 生成 AI 时代的 MLOps 演进

    的生命周期管理、自动化部署、监控和故障排除、数据管理和安全合规等功能,帮助团队更好地开发、部署和管理生成 AI 模型,实现更加高效、可靠的运行。本期视频将为您介绍如何根据生成
    的头像 发表于 12-21 18:05 323次阅读

    生成AI技术的应用前景

    生成 AI(人工智能)与我们熟知的 AI 有何不同?这篇文章将为我们一探究竟!
    的头像 发表于 11-29 12:20 1299次阅读