AI下个大突破之前奏：研究人员正在教大型语言模型-电子发烧友网

GPT-3 自动生成的语言竟然能和人类差不多，堪称奇迹。但在很大程度上，GPT-3 也不过是个噱头。判断方法也很简单。若提问 GPT-3：羊是什么颜色？它会说 “白色 ”，还会说 “黑色 ”，频次一样高。因为英语里有 “black sheep”（黑羊，引申意为害群之马）。

这就是语言模型的问题。只用文本训练语言模型，会导致模型缺乏常识。不过，为了改变这种状况，北卡罗来纳大学教堂山分校（下文简称 UNC）的学者莫希特・班萨尔和其博士生谭昊研发了一种新技术，研究人员称其为为 “视觉监督（vokenization）”，如此，GPT-3 等语言模型便能具备 “看 ” 的功能。

将语言模型与计算机视觉结合起来并不新鲜，该人工智能研究领域其实正在快速发展。出发点是这两种类型都有不同的优势。GPT-3 等语言模型通过无监督学习来训练，不需要人工进行数据标注，因此很容易开发出大型模型。而物体识别系统等图像模型更多是在现实世界中学习。换句话说，图像模型并不依赖文本所提供的抽象世界来理解世界。比如，图像模型可以从羊的图片中 “看到”，羊其实是白色的。

能够同时解析语言和视觉输入的人工智能模型用处很大。例如，机器人需要计算机视觉来导航，也需要语言来与人类交流，因此该模型能用于开发机器人。

但要结合这两种类型，是说起来容易做起来难。并非把现有的语言模型与物体识别系统拼接在一起便大功告成，而是需要从头开始训练新模型。所用数据集要包括文本和图像，也就是所谓的视觉语言数据集。

要获得这样一个数据集，最常见的方法是做带有描述性标题的图片集。例如，下面这张图片的标题设为 “一只橘猫卧在空行李箱里”。这样的图片集便和传统图片数据集不同。后者只用名词来标注图片，比如给下面这张图片只简单地命名为 “猫”。因此，视觉语言数据集不仅可以教人工智能模型如何识别对象，还可以教人工智能模型如何根据动词和介词识别不同对象之间的相互关系。

但如此也意味着，创建数据集会耗费很长时间。因此，现有的视觉语言数据集太单薄了。而常用的纯文本数据集则不同。如英语维基百科，包括了几乎所有英语维基百科条目，有近 30 亿个单词。而视觉语言数据集 Microsoft Common Objects in Context（下文简称 MS COCO）只包含 700 万个，根本不足以训练一个有用的 AI 模型。

有了视觉监督，问题迎刃而解。视觉监督使用无监督学习方法，将 MS COCO 的数据规模扩展到与英语维基百科相当。视觉语言模型用规模化后的数据集训练后，研究人员使用了一些最难的 AI 语言理解能力测试对其进行检验。结果模型的表现甚至优于当今最先进的模型。

自然语言处理初创公司 Hugging Face 的联合创始人兼首席科学官托马斯・沃尔夫说：“要在这些测试中击败最先进的模型，得下大力气。这些测试可不是儿戏。能有这样的结果，真的让人非常激动。”

我们先理清一些术语。到底什么是 “voken”？

在人工智能领域，用来训练语言模型的词称为 token。UNC 研究人员便以 “voken”，来指代所用视觉语言模型中与任一 token 相关联的图像。用来匹配 token 和 voken 的算法称为 vokenizer，整个匹配过程称为 “视觉监督”。

说了这么多，主要是为了帮助大家理解视觉监督的基本理念。UNC 研究人员没有拿着图像数据集来手动编写标题，这耗时过长；他们选择了使用语言数据集以及无监督学习法，匹配每个单词与相关图像。如此便很容易规模化。

此处的无监督学习技术正是此项研究的贡献。那么，究竟如何为每个单词找到关联图像呢？

视觉监督

先回到 GPT-3。GPT-3 所属语言模型家族有 “变形金刚” 之称。2017 年，该类模型首次面世，便是将无监督学习应用于自然语言处理取得的重大突破。变形金刚可以观察单词在上下文中的使用，再根据上下文创建每个单词的数学表达式，即 “单词嵌入”，以此来学习人类语言模式。例如，代表 “猫 ” 的嵌入可能会显示，“喵 ” 和 “橙” 两字周围，“猫” 出现频率高，但在 “吠 ” 或 “蓝色 ” 周围出现的频率便较低。

因此，变形金刚猜单词含义的准确度较高，GPT-3 也因此能写出仿佛由人所作的句子。变形金刚一定程度上依靠这些嵌入，学习如何将单词组成句子、句子组成段落。

还有一种类似技术也可以用于处理图像。这种技术不是通过扫描文本来寻找单词使用规律，而是通过扫描图像来寻找视觉规律。比如，该技术将猫出现在床上与出现在树上的频率制成表格，并利用这些上下文信息创建 “猫” 的嵌入。

UNC 研究人员认为，处理 MS COCO 要同时使用这两种嵌入技术。研究人员将图像处理为视觉嵌入，将标题处理为文字嵌入。而这些嵌入妙就妙在能在三维空间中绘制出来，完全可以看到嵌入之间的关系。如果某一视觉嵌入与某一单词嵌入密切相关，绘制出来后位置很接近。换句话说，理论上，代表猫的视觉嵌入应该与代表猫的文字嵌入重合。

之后的工作也就水到渠成。一旦嵌入都绘制完毕、并相互比较和关联，就很容易开始匹配图像（voken）与文字（token）。而且，由于图像和单词基于原嵌入进行匹配，那么实际也在基于上下文进行匹配。这样，即便一个词可能有多个不同含义也不必担心，该技术能为单词的每个含义找到对应 voken。

比如：

这是她的联系方式。一些猫喜欢被人抚摸。

这两个例子中的 token 都是 “contact” 一词。但在第一个句子中，上下文表明 “contact” 是联系的意思，所以 voken 是联系图标。在第二个句子中，上下文表明这个词有触摸的意思，所以 voken 显示的是一只被抚摸的猫。

这些利用 MS COCO 创建的视觉和单词嵌入，便用来训练算法 vokenizer。

一旦经过训练，vokenizer 就能够在英语维基百科中找 token 的对应 voken。虽然该算法只为大约 40% 的 token 找到了 voken，并不完美，但英语维基百科可是有接近 30 亿字。

有了新的数据集后，研究人员重新训练了 BERT 语言模型。BERT 是谷歌开发的开源变形金刚，比 GPT-3 还要早。然后，研究人员使用六个语言理解测试，测试改进的 BERT。语言理解测试中有 SQuAD 斯坦福回答数据集，该测试要求模型回答基于文章的阅读理解题；还有 SWAG 测试，该测试利用英语语言的精妙处，检测模型是否只是单纯模仿和记忆。改进的 BERT 在所有测试里表现都比原来更突出。沃尔夫说，这并不奇怪。

11 月 16 日到 18 日将举办自然语言处理实证方法会议。研究人员将在会议上展示视觉监督新技术。虽然研究还处于早期阶段，但沃尔夫认为，从在视觉语言模型中利用无监督学习方面看，这项工作是一项重要观念突破。当年，正是类似突破极大推动了自然语言处理的发展。

沃尔夫说：“在自然语言处理领域，两年多前便有了这一巨大突破，然后突然间自然语言处理领域有了很大发展，开始走在其他 AI 领域前面。但是把文字和其他事物联系起来还是有很大障碍。就像机器人只能说话，但不会看、不会听。”

“这篇论文则做到了将文字与另一种模式连接起来，而且效果更好，树立了典范。可以想象，如果要把这种非常强大的语言模型用到机器人上，也许能用到部分新技术。比如，用同样的技术将机器人的感官和文本联系起来。”

原文标题：AI下个大突破之前奏：研究人员正在教大型语言模型 “看” 世界，进而理解世界

文章出处：【微信公众号：DeepTech深科技】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器视觉

机器视觉

+关注

关注
162

文章
4433

浏览量
121099
AI

AI

+关注

关注
87

文章
32335

浏览量
271432
人工智能

人工智能

+关注

关注
1799

文章
48049

浏览量
241947

原文标题：AI下个大突破之前奏：研究人员正在教大型语言模型 “看” 世界，进而理解世界

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

小白学大模型：训练大语言模型的深度指南

在当今人工智能飞速发展的时代，大型语言模型（LLMs）正以其强大的语言理解和生成能力，改变着我们的生活和工作方式。在最近的一项研究中，科学家

发表于 03-03 11:51 •187次阅读

小白学大<b class='flag-5'>模型</b>：训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

AI基础模型提升癌症诊断精确度,实现个性化治疗方案定制

斯坦福大学研究人员正在通过一项新研究和一个新 AI 模型简化癌症诊断、治疗规划和预后预测。这项名为“多模态统一掩码建模 Transforme

发表于 02-11 09:22 •441次阅读

<b class='flag-5'>AI</b>基础<b class='flag-5'>模型</b>提升癌症诊断精确度,实现个性化治疗方案定制

基于Arm Neoverse平台的处理器革新生成式AI体验

Llama 是一个专为开发者、研究人员和企业打造的开源大语言模型 (LLM) 库，旨在推动生成式 AI 的创新、实验及可靠地扩展。

发表于 01-03 15:31 •324次阅读

基于Arm Neoverse平台的处理器革新生成式<b class='flag-5'>AI</b>体验

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

日前，加州大学的研究人员携手英伟达，共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力，为智能机器人的自主导航提供了一种全新的解决方案。视

发表于 12-13 10:51 •385次阅读

大语言模型开发框架是什么

大语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面，AI部落小编为您介绍

发表于 12-06 10:28 •246次阅读

AMD发布10亿参数开源AI模型OLMo

AMD公司近日宣布了一项重大进展，推出了首个完全开放的10亿参数语言模型系列——AMD OLMo。这一举措为开发者和研究人员提供了强大的AI研究

发表于 11-12 18:08 •548次阅读

从零开始训练一个大语言模型需要投资多少钱？

一，前言在AI领域，训练一个大型语言模型（LLM）是一个耗时且复杂的过程。几乎每个做大型语言

发表于 11-08 14:15 •454次阅读

AI大模型的最新研究进展

AI大模型的最新研究进展体现在多个方面，以下是对其最新进展的介绍：一、技术创新与突破生成式AI技术的爆发：生成式

发表于 10-23 15:19 •839次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

偏见、伦理道德等问题。此外，如何更好地将AI与科学研究人员的传统工作模式相融合，也是一个亟待解决的问题。未来，随着技术的不断进步和应用场景的拓展，AI for Science有望在更多领域发挥关键作用

发表于 10-14 09:16

基于CPU的大型语言模型推理实验

随着计算和数据处理变得越来越分散和复杂，AI 的重点正在从初始训练转向更高效的AI 推理。Meta 的 Llama3 是功能强大的公开可用的大型语言

发表于 07-18 14:28 •729次阅读

AI大模型与传统AI的区别

AI大模型（如LLM，即大型语言模型）与传统AI在多个方面存在显著的区别。以下将从技术层面、应用

发表于 07-15 11:37 •4023次阅读

谷歌发布新型大语言模型Gemma 2

在人工智能领域，大语言模型一直是研究的热点。近日，全球科技巨头谷歌宣布，面向全球研究人员和开发人员，正式发布了其最新研发的大

发表于 06-29 09:48 •551次阅读

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》2.0

、自然语言处理感兴趣的研究人员、工程师以及学生阅读。无论是初学者还是有一定基础的专业人士，都能从中获得有价值的信息。

发表于 05-07 10:30

【大语言模型：原理与工程实践】大语言模型的基础技术

大语言模型基础技术21随着Transformer结构在机器翻译领域取得巨大成功，研究人员开始探索其在其他自然语言处理任务中的潜力。很快，Transformer 结构被证明不仅适用于序列

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

。大语言模型的缩放定律对于深度学习研究和应用具有重要意义。它提供了更强大的泛化能力和适应性，使得模型能够更好地处理现实世界中的复杂任务和不确定性问题。同时，缩放定律也促进了开放性

发表于 05-04 23:55

搜索历史

AI下个大突破之前奏：研究人员正在教大型语言模型

评论

小白学大模型：训练大语言模型的深度指南

AI基础模型提升癌症诊断精确度,实现个性化治疗方案定制

基于Arm Neoverse平台的处理器革新生成式AI体验

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

大语言模型开发框架是什么

AMD发布10亿参数开源AI模型OLMo

从零开始训练一个大语言模型需要投资多少钱？

AI大模型的最新研究进展

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

基于CPU的大型语言模型推理实验

AI大模型与传统AI的区别

谷歌发布新型大语言模型Gemma 2

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》2.0

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】揭开大语言模型的面纱