吴恩达的2022年终盘点：生成式AI、ViT、大模型-电子发烧友网

来源：智源社区

近日，吴恩达在圣诞节的《The Batch》特刊上发布了一年一度的年终盘点。在过去的一年，生成式AI迎来爆发式增长，由人工智能生成的图片在社交平台疯狂传播，引发大量争议的同时也推动了投资；视觉 Transformer(ViT) 的工作也出现爆炸性增长，在过去一年中，研究人员共计发表超过 17,000 篇 ViT 论文；AlphaCode、Codex 等的推出便利了开发者，大受欢迎；与此同时，研究人员也在不断拓宽语言模型的边界，在解决可信度、偏见和实时性等问题方面做出持续不断的努力。

亲爱的朋友们：
随着寒假的临近，我突然想到，我们不是在面对人工智能的冬天，而是在一个人工智能炙热的夏天。
今天，人工智能创造的绝大多数经济价值都来自监督式学习工具，经过训练能够生成简短的标签(如判断垃圾邮件/非垃圾邮件)或一系列标签(如一段音频的文本）。今年，建立在监督式学习之上的生成式成为第二个主要工具，使人工智能能够生成复杂且引人注目的图像或文本段落。
以往开发重要新工具（例如强化学习）的一些尝试，尚未取得与其铺天盖地的宣传相称的成果。但是生成式AI做得很好，它为人工智能应用创造了一个新的范式。
而且监督学习还远远没有发挥出它的全部潜力！依靠监督学习，仍然有数以百万计的的应用有待开发。许多团队仍然在试图找出通过监督学习开发产品的最佳实践。
未来，我期待着继续与生成式AI共舞，为每个人创造大量的价值。我感到很幸运能活在这个时代，科技飞速发展，我们有机会一起创造未来！能与我的家人和你们分享这个世界，我感到倍加幸运。
节日快乐，
Andrew

2022：人工智能闪耀的一年

节日将近，人们也许正一边手捧着一杯热可可，一边催促 ChatGPT 建议节日礼物。这个特殊的时刻，让我们回顾这一年人工智能所取得的巨大进步。能够生成类人的文本、图像和代码的系统（视频和音乐也即将推出）让用户倍感惊喜，尽管有人对创造力的未来提出了质疑。这一年，解码化学和物理学的模型推动了科学发现，同时政府则采取行动推动专用微处理器的供应，使这种创新成为可能。这些科技发展让我们震惊的同时，在这期《 The Batch 》特刊中，我们将着重回顾人工智能在2022年创造的奇迹。

合成图像遍天下

大事件: 新一代的文生图工具激发了大量的实验，将文本描述转化为迷人的艺术作品和照片，引发超现实主义的幻想。商业企业迅速将这项技术投入使用，使图像生成成为创建和编辑图形软件的必备功能。
背后的驱动力：由于友好的用户界面、具有高度娱乐性的输出以及开放的 API 和模型，能够生成文字和图像的模型成为人工智能的公众名片。

OpenAI 在四月份推出了 DALL-E 2。超过150万用户测试了这个模型，今年9月，公司将它推向了市场。微软为 OpenAI 提供资金，以换取其作品的独家商业版权，并将该模式整合到 Azure AI-as-a-service 平台中。
7月，只需操作按钮的艺术家们用简单的 Craiyon 制作的相对粗糙的图片，这些图片在社交平台上随处可见。
Stability AI很快就加大了赌注，推出了开源的扩散模型（Stable Diffusion），最终吸引了超过1亿美元的新资金。扩散模型于去年11月升级到2.0版。
Adobe、Getty Images 和 Shutte rstock 将图像生成模型集成到他们自己的产品和服务中。
这些应用根据给出的文本提示（prompt）会产生截然不同的结果。PromptBase 为生成有趣输出的文本字符串打开了一个市场。

缺点：这样的模特是在从网上搜刮来的图像上训练的。像大型语言模型一样，他们继承了嵌入在网络内容中的偏见，可能会模仿煽动性的表达风格。

Lensa AI 是一款照片编辑应用程序，可以根据用户的自拍生成艺术化身，它登上了app商店排行榜的榜首。它的成功带来了一定程度的争议，因为用户，尤其是女性，发现这个app使她们的图片变得更加性感。

视觉艺术家在线社区 ArtStation 推出了自己的“文字到图像”功能。许多艺术家感到受到电脑程序的威胁，这些程序可以在几秒钟内复制艺术家来之不易的个人风格，因此开始抵制该网站。

新闻背后: 扩散模型经过一系列步骤有选择地去噪来产生输出。加州大学伯克利分校和斯坦福大学的研究人员于2015年引入了这一技术，在此之后的几年里，他们一直处于幕后，直到最近的研究表明，他们能够制作出与生成性对抗网络(GAN)输出相竞争的图像。Stability AI 把扩散模型放在核心位置。DALL-E 初始版本基于GAN，OpenAI在大约同一时间用扩散模型对其进行了更新。

现状：来年将迎来一场计算机辅助创造力的革命。生成图像的风潮不会止步于图片。谷歌和 Meta 今年发布了令人印象深刻的文本到视频模型，而 OpenAI 将文本到 3D物体的生成速度提高到了一个新高度。

程序员的好朋友—编程工具大显身手

软件项目进度落后？有个软件可以帮你。

大事件：事实证明，经过计算机代码微调的语言模型能够生成类似于经验丰富的开发人员编写的软件例程ーー尽管结果可能是偶然的。背后的驱动力：人工智能驱动的代码生成器进入了大公司，甚至小规模公司的开发人员（和非开发人员）也可以访问它们。

今年年初，Ebay 将低代码工具交到非工程师手中，使他们能够在没有人工智能或机器学习知识的情况下构建和部署模型。
今年 2 月，DeepMind 推出了 AlphaCode，这是一款用 12 种编程语言对 8600 万个程序进行预训练的 Transformer，并针对编码竞赛的内容进行了微调。通过推理，它产生了一百万种可能的解决方案，并过滤掉了不佳的解决方案。通过这种方式，它在 10 次编程竞赛中击败了一半以上的参赛者。

今年 6 月，GitHub 开放了 Copilot 的访问权限，这是一个能够实时提供代码建议的自动完成系统。虽然学生和经过验证的开源开发者可以免费访问，但用户需要支付订阅费。

新闻背后：OpenAI 的 GPT-3语言模型的用户表明，它最早可以在 2020 年中期生成工作代码。一年后，OpenAI 推出了一个经过微调的版本，名为 Codex，它是 GitHub 的 Copilot 的基础。
缺点：这种技术的广泛使用的版本还不能编写复杂的程序。通常乍一看，它们的输出看起来是正确的，但实际上却存在错误。此外，它们的法律地位可能还有待商榷。一项针对 GitHub、 OpenAI 和微软的集体诉讼声称，Codex 的训练违反了开源许可协议。这一结果可能会对生成文本、图像和其它媒体数据的模型产生法律影响。现状：人工智能驱动的编程工具不太可能在不久的将来取代人类程序员，但它们可能会取代技术问答网站 Stack Overflow，成为开发人员最依赖的辅助工具。

人工智能之眼进化

视觉 Transformer(ViT) 的工作在 2022 年出现爆炸性增长。大事件：在这一年中，研究人员发表了超过 17,000 篇 ViT 论文。其中一个主题是: 将自注意力和卷积结合起来。背后的驱动力：谷歌大脑的一个团队在 2020 年引入了视觉 Transformer 。从此，视觉 Transformer 的架构经历了不断的改进。一系列最近的工作使 ViT 适应新的任务并解决其缺点。

用海量数据训练 ViT 可以得到最好的性能，因此 Meta 和索邦大学的研究人员专注于提高 ViT 在包含数百万条数据的数据集上的性能。他们利用 Transformer 特有的已建立的程序（如数据增强和模型正则化）的适配来提高模型性能。
Inha 大学的研究人员修改了两个关键部件，使得 ViT与卷积神经网络更相似。首先，他们将图像分割成重叠更多的图块（patch）。其次，他们修改了自注意力机制，使其关注与图块相邻的图块，而不是图块本身，并使其能够学习是否更均匀或更有选择性地权衡相邻的图块。这些修改极大地提高了精度。

印度理工学院孟买校区的研究人员为 ViT 配备了卷积层。由于重量共享机制，卷积带来了像素的局部处理和更小的内存占用等好处。在精度和速度方面，他们的卷积 ViT 优于普通的 ViT 和运行时优化的 Transformer（如 Performer，Nyströformer 和线性 Transformer）。其他团队采取了类似的方法。

新闻背后：尽管许多 ViT 研究旨在超越并最终取代卷积神经网络(CNN) ，但更有力的趋势是将二者结合起来。ViT 的优势在于它能够在小尺度和大尺度上考虑图像中所有像素之间的关系。但这种模型的一个缺点是，它需要通过额外的训练来学习随机初始化后融入 CNN 架构的方法。CNN 的局部上下文窗口（只考虑局部像素问题）和权重共享（使它能够以相同的方式处理不同的图像位置）帮助 Transformer 利用更少的数据中学习更多。
现状：在过去的一年中，视觉 Transformer 的应用范围扩大了。ViT 可以生成逼真的连续视频帧，利用 2D 图像序列生成3D 场景，并在点云中检测目标。很难想象在没有 ViT 的情况下，最近研究者们能够取得基于扩散模型的文本到图像生成器的进展。

语言模型持续扩展

研究人员推动了语言模型的边界，以解决可信度、偏见和可更新性等持续存在的问题。

大事件: 许多人工智能实验室的目标是通过改进数据集和训练方法（包括训练 Transformer 翻译1000 种语言的方法）使大规模语言模型更加复杂，而其它实验室则扩展了模型架构，以搜索 Web 网页、查阅外部文档和适应新信息。背后的驱动力: 语言模型产生似是而非的文本的能力超过了它们辨别事实、避免编造幻想和表达社会偏见的能力。研究人员致力于使他们的研究结果更加可靠，而不是那么具有煽动性。

2021 年底，DeepMind 提出了 RETRO 模型，该模型可以从 MassiveText 数据集中检索段落，并将其整合到输出中。
AI21 实验室春季发布的 Jurassic -X 引入了一系列模块——包括一个计算单元和一个查询维基百科的系统——利用事实核查语言模型对数学问题、历史事实等的答案。
斯坦福大学和洛桑联邦理工学院的研究人员创建了 SERAC 系统，该系统可以用新的信息更新语言模型，而无需重新训练它们。他们使用单独的系统存储新数据，学习为与该数据相关的查询提供输出。
Meta 构建了语言模型 Atlas，通过从文档数据库中检索信息来回答问题。8 月份发布后，这一方法使 110 亿参数的 Atlas 在回答问题时的表现超过了具有 5400 亿参数的 PaLM。
今年晚些时候，OpenAI 对 ChatGPT 进行了微调，从而最小化不真实、有偏见或有害的输出。人类对模型的训练数据质量进行排名，然后用强化学习算法对模型产生的输出给出奖励，这些输出与排名靠前的输出类似。

这些技术发展加强了对语言评测基准的需求，从而评估更多样化和微妙的能力。为此，超过130 个机构合作开发了“BIG-bench”，它包括根据表情符号推断电影名称、参与模拟审查以及检测逻辑谬误等任务。

新闻背后: 进展过程并非一帆风顺。Meta 公开演示的 Galactica 语言模型，被训练用于生成科学和技术主题的文本。在 11 月份上线三天后，开发者因为它容易生成虚假信息和引用不存在的信息来源而停止演示。今年 8 月，同样来自 Meta 的聊天机器人 BlenderBot 3 很快就因滔滔不绝的种族主义成见和阴谋论而饱受争议。现状: 在过去的一年中，文本生成中考虑生成结果真实、得体的工具箱大幅度增长。成功的技术将在未来的某项“爆款”模型引发的浪潮中找到前进的道路。

全能模型

大事件：某些多任务深度学习模型在数百个任务中证明了它们所向披靡。多任务模型的范畴在过去的一年里急剧扩大。

背后驱动力：研究人员推动了神经网络可以学习技能数量的极限。他们的灵感来自于大规模语言模型的新兴技能ーー比如，在不调整架构的情况下创作诗歌和编写计算机程序的能力ーー以及经过文本和图像训练的模型找到不同数据类型之间对应关系的能力。

今年春天，谷歌的 PalM在涉及语言理解和生成的数百项小样本学习任务中取得了目前最优的结果。在某些情况下，它的表现优于经过微调的模型或人类的平均表现。

不久后，DeepMind 推出了一款名为 Gato 的 Transformer 模型，它学会了完成 600 多种不同的任务ーー玩 Atari 游戏、用机器臂堆积木、生成图片描述等等ーー尽管不一定比专门用于这些任务的独立模型更好。该系统同时接受了多种数据集的监督训练（从文本、图像到强化学习智能体生成的动作等）。

随着这一年接近尾声，谷歌研究人员也将类似的能力引入了机器人领域。RT-1 是一种使机器人能够执行超过 700 项任务的 Transformer模型。该系统对动作和图像进行词例化，利用近一年半的机器人队伍收集的 130,000 个 episode 构成的数据集学习。与先前的技术相比，它在新的任务、环境和对象中取得了出色性能。

新闻背后: 欧盟拟议的 AI 法案的最新草案可能在 2023 年成为法律，该草案将要求通用 AI 系统的用户向当局注册，评估其系统的潜在的误用可能，并进行定期审计。草案将通用系统定义为那些“执行通用功能的系统，如图像/语音识别、音频/视频生成、模式检测、问答、翻译等”，并且能够“具有多种预期和非预期目的”，一些观察家批评该定义过于宽泛。新出现的真正通用的模型可能促使监管机构收紧其定义。

现状: 我们仍然处于构建算法的早期阶段，这些算法可以泛化到数百个不同的任务上。这一年的进展表明，深度学习有潜力帮助我们实现这一目标。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30887

浏览量
269066
人工智能

人工智能

+关注

关注
1791

文章
47274

浏览量
238468
生成式AI

生成式AI

+关注

关注
0

文章
504

浏览量
474

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频，该模型可以创作出包含任意的音乐、人声和声音组合的作品。

发表于 11-27 11:29 •353次阅读

在设备上利用AI Edge Torch生成式API部署自定义大语言模型

我们很高兴地发布 AI Edge Torch 生成式 API，它能将开发者用 PyTorch 编写的高性能大语言模型 (LLM) 部署至 TensorFlow Lite (TFLite

发表于 11-14 10:23 •435次阅读

在设备上利用<b class='flag-5'>AI</b> Edge Torch<b class='flag-5'>生成</b><b class='flag-5'>式</b>API部署自定义大语言<b class='flag-5'>模型</b>

生成式AI工具作用

生成式AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此，petacloud.ai小编为您整理

发表于 10-28 11:19 •236次阅读

AI大模型的最新研究进展

AI大模型的最新研究进展体现在多个方面，以下是对其最新进展的介绍：一、技术创新与突破生成式AI技术的爆发：

发表于 10-23 15:19 •436次阅读

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

Foundry 提供从数据策管、合成数据生成、微调、检索、防护到评估的全方位生成式 AI 模型服务，以便部署自定义 Llama 3.1 N

发表于 07-24 09:39 •710次阅读

NVIDIA <b class='flag-5'>AI</b> Foundry 为全球企业打造自定义 Llama 3.1 <b class='flag-5'>生成</b><b class='flag-5'>式</b> <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>

如何用C++创建简单的生成式AI模型

生成式AI（Generative AI）是一种人工智能技术，它通过机器学习模型和深度学习技术，从大量历史数据中学习对象的特征和规律，从而能够

发表于 07-05 17:53 •861次阅读

生成式AI与神经网络模型的区别和联系

生成式AI与神经网络模型是现代人工智能领域的两个核心概念，它们在推动技术进步和应用拓展方面发挥着至关重要的作用。本文将详细探讨生成

发表于 07-02 15:03 •741次阅读

原来这才是【生成式AI】！！

随着ChatGPT、文心一言等AI产品的火爆，生成式AI已经成为了大家茶余饭后热议的话题。可是，为什么要在AI前面加上“

发表于 06-05 08:04 •290次阅读

原来这才是【<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>】！！

世界数字技术院发布：生成式AI安全测试标准及大语言模型

据悉，上述两款标准主要针对大型模型与生成式AI应用领域的安全检测设定了新基准。参与制定工作的单位有OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟

发表于 04-17 16:51 •1097次阅读

生成式AI手机出货量或将飞速增长，市场份额提升显著

同时，反转点还预期，至2027年，生成式AI智慧型手机的市场保有量将超过10亿部。按照其定义，生成式

发表于 04-16 16:55 •622次阅读

生成式 AI 进入模型驱动时代

随着ChatGPT和大型语言模型(LLM)呈现爆炸式增长，生成式人工智能(GenerativeAI)成为近来的一大热词。由此引发了一场争论：哪种AI

发表于 04-13 08:12 •533次阅读

联想携手京东，紧扣大模型和生成式AI技术

联想与京东携手，紧扣大模型和生成式AI技术带来的产业机遇，在多个领域展开深入合作。

发表于 04-12 10:27 •641次阅读

英伟达将推出生成式AI专业认证

在人工智能日益成为技术发展的核心领域的今天，英伟达在近日举行的GTC大会上将推出生成式AI专业认证。这一创新举措旨在帮助开发者、职场人士以及其他相关人员更好地证明和展示自己在

发表于 03-19 11:44 •884次阅读

AI视频年大爆发！2023年AI视频生成领域的现状全盘点

2023年，也是AI视频元年。过去一年究竟有哪些爆款应用诞生，未来视频生成领域面临的难题还有哪些？

发表于 02-20 10:40 •1231次阅读

未来十年不变的AI是什么？吴恩达等专家关于2024年AI发展趋势的预测

AI发展主流的关键方向。智哪儿整合了这些专家的观点，旨在为我们勾勒出2024年AI技术可能达到的新高度和其潜在的社会影响。社区、工具和数据的重要性吴

发表于 01-04 11:36 •898次阅读

搜索历史

吴恩达的2022年终盘点：生成式AI、ViT、大模型

2022：人工智能闪耀的一年

研究人员推动了语言模型的边界，以解决可信度、偏见和可更新性等持续存在的问题。

评论

NVIDIA推出全新生成式AI模型Fugatto

在设备上利用AI Edge Torch生成式API部署自定义大语言模型

生成式AI工具作用

AI大模型的最新研究进展

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

如何用C++创建简单的生成式AI模型

生成式AI与神经网络模型的区别和联系

原来这才是【生成式AI】！！

世界数字技术院发布：生成式AI安全测试标准及大语言模型

生成式AI手机出货量或将飞速增长，市场份额提升显著

生成式 AI 进入模型驱动时代

联想携手京东，紧扣大模型和生成式AI技术

英伟达将推出生成式AI专业认证

AI视频年大爆发！2023年AI视频生成领域的现状全盘点

未来十年不变的AI是什么？吴恩达等专家关于2024年AI发展趋势的预测