0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI下个大突破之前奏:研究人员正在教大型语言模型

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2022-07-10 15:25 次阅读

GPT-3 自动生成的语言竟然能和人类差不多,堪称奇迹。但在很大程度上,GPT-3 也不过是个噱头。判断方法也很简单。若提问 GPT-3:羊是什么颜色?它会说 “白色 ”,还会说 “黑色 ”, 频次一样高。因为英语里有 “black sheep”(黑羊,引申意为害群之马)。

这就是语言模型的问题。只用文本训练语言模型,会导致模型缺乏常识。不过,为了改变这种状况,北卡罗来纳大学教堂山分校(下文简称 UNC)的学者莫希特・班萨尔和其博士生谭昊研发了一种新技术,研究人员称其为为 “视觉监督(vokenization)”,如此,GPT-3 等语言模型便能具备 “看 ” 的功能。

将语言模型与计算机视觉结合起来并不新鲜,该人工智能研究领域其实正在快速发展。出发点是这两种类型都有不同的优势。GPT-3 等语言模型通过无监督学习来训练,不需要人工进行数据标注,因此很容易开发出大型模型。而物体识别系统等图像模型更多是在现实世界中学习。换句话说,图像模型并不依赖文本所提供的抽象世界来理解世界。比如,图像模型可以从羊的图片中 “看到”,羊其实是白色的。

能够同时解析语言和视觉输入的人工智能模型用处很大。例如,机器人需要计算机视觉来导航,也需要语言来与人类交流,因此该模型能用于开发机器人。

但要结合这两种类型,是说起来容易做起来难。并非把现有的语言模型与物体识别系统拼接在一起便大功告成,而是需要从头开始训练新模型。所用数据集要包括文本和图像,也就是所谓的视觉语言数据集。

要获得这样一个数据集,最常见的方法是做带有描述性标题的图片集。例如,下面这张图片的标题设为 “一只橘猫卧在空行李箱里”。这样的图片集便和传统图片数据集不同。后者只用名词来标注图片,比如给下面这张图片只简单地命名为 “猫”。因此,视觉语言数据集不仅可以教人工智能模型如何识别对象,还可以教人工智能模型如何根据动词和介词识别不同对象之间的相互关系。

但如此也意味着,创建数据集会耗费很长时间。因此,现有的视觉语言数据集太单薄了。而常用的纯文本数据集则不同。如英语维基百科,包括了几乎所有英语维基百科条目,有近 30 亿个单词。而视觉语言数据集 Microsoft Common Objects in Context(下文简称 MS COCO)只包含 700 万个,根本不足以训练一个有用的 AI 模型。

有了视觉监督,问题迎刃而解。视觉监督使用无监督学习方法,将 MS COCO 的数据规模扩展到与英语维基百科相当。视觉语言模型用规模化后的数据集训练后,研究人员使用了一些最难的 AI 语言理解能力测试对其进行检验。结果模型的表现甚至优于当今最先进的模型。

自然语言处理初创公司 Hugging Face 的联合创始人兼首席科学官托马斯・沃尔夫说:“要在这些测试中击败最先进的模型,得下大力气。这些测试可不是儿戏。能有这样的结果,真的让人非常激动。”

我们先理清一些术语。到底什么是 “voken”?

在人工智能领域,用来训练语言模型的词称为 token。UNC 研究人员便以 “voken”,来指代所用视觉语言模型中与任一 token 相关联的图像。用来匹配 token 和 voken 的算法称为 vokenizer, 整个匹配过程称为 “视觉监督”。

说了这么多,主要是为了帮助大家理解视觉监督的基本理念。UNC 研究人员没有拿着图像数据集来手动编写标题,这耗时过长;他们选择了使用语言数据集以及无监督学习法,匹配每个单词与相关图像。如此便很容易规模化。

此处的无监督学习技术正是此项研究的贡献。那么,究竟如何为每个单词找到关联图像呢?

视觉监督

先回到 GPT-3。GPT-3 所属语言模型家族有 “变形金刚” 之称。2017 年,该类模型首次面世,便是将无监督学习应用于自然语言处理取得的重大突破。变形金刚可以观察单词在上下文中的使用,再根据上下文创建每个单词的数学表达式,即 “单词嵌入”,以此来学习人类语言模式。例如,代表 “猫 ” 的嵌入可能会显示,“喵 ” 和 “橙” 两字周围,“猫” 出现频率高,但在 “吠 ” 或 “蓝色 ” 周围出现的频率便较低。

因此,变形金刚猜单词含义的准确度较高,GPT-3 也因此能写出仿佛由人所作的句子。变形金刚一定程度上依靠这些嵌入,学习如何将单词组成句子、句子组成段落。

还有一种类似技术也可以用于处理图像。这种技术不是通过扫描文本来寻找单词使用规律,而是通过扫描图像来寻找视觉规律。比如,该技术将猫出现在床上与出现在树上的频率制成表格,并利用这些上下文信息创建 “猫” 的嵌入。

UNC 研究人员认为,处理 MS COCO 要同时使用这两种嵌入技术。研究人员将图像处理为视觉嵌入,将标题处理为文字嵌入。而这些嵌入妙就妙在能在三维空间中绘制出来,完全可以看到嵌入之间的关系。如果某一视觉嵌入与某一单词嵌入密切相关,绘制出来后位置很接近。换句话说,理论上,代表猫的视觉嵌入应该与代表猫的文字嵌入重合。

之后的工作也就水到渠成。一旦嵌入都绘制完毕、并相互比较和关联,就很容易开始匹配图像(voken)与文字(token)。而且,由于图像和单词基于原嵌入进行匹配,那么实际也在基于上下文进行匹配。这样,即便一个词可能有多个不同含义也不必担心,该技术能为单词的每个含义找到对应 voken。

比如:

这是她的联系方式 。 一些猫喜欢被人抚摸。

这两个例子中的 token 都是 “contact” 一词。但在第一个句子中,上下文表明 “contact” 是联系的意思,所以 voken 是联系图标。在第二个句子中,上下文表明这个词有触摸的意思,所以 voken 显示的是一只被抚摸的猫。

这些利用 MS COCO 创建的视觉和单词嵌入,便用来训练算法 vokenizer。

一旦经过训练,vokenizer 就能够在英语维基百科中找 token 的对应 voken。虽然该算法只为大约 40% 的 token 找到了 voken,并不完美,但英语维基百科可是有接近 30 亿字。

有了新的数据集后,研究人员重新训练了 BERT 语言模型。BERT 是谷歌开发的开源变形金刚,比 GPT-3 还要早。然后,研究人员使用六个语言理解测试,测试改进的 BERT。语言理解测试中有 SQuAD 斯坦福回答数据集,该测试要求模型回答基于文章的阅读理解题;还有 SWAG 测试,该测试利用英语语言的精妙处,检测模型是否只是单纯模仿和记忆。改进的 BERT 在所有测试里表现都比原来更突出。沃尔夫说,这并不奇怪。

11 月 16 日到 18 日将举办自然语言处理实证方法会议。研究人员将在会议上展示视觉监督新技术。虽然研究还处于早期阶段,但沃尔夫认为,从在视觉语言模型中利用无监督学习方面看,这项工作是一项重要观念突破。当年,正是类似突破极大推动了自然语言处理的发展。

沃尔夫说:“在自然语言处理领域,两年多前便有了这一巨大突破,然后突然间自然语言处理领域有了很大发展,开始走在其他 AI 领域前面。但是把文字和其他事物联系起来还是有很大障碍。就像机器人只能说话,但不会看、不会听。”

“这篇论文则做到了将文字与另一种模式连接起来,而且效果更好,树立了典范。可以想象,如果要把这种非常强大的语言模型用到机器人上,也许能用到部分新技术。比如,用同样的技术将机器人的感官和文本联系起来。”

原文标题:AI下个大突破之前奏:研究人员正在教大型语言模型 “看” 世界,进而理解世界

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    161

    文章

    4335

    浏览量

    120045
  • AI
    AI
    +关注

    关注

    87

    文章

    29928

    浏览量

    268242
  • 人工智能
    +关注

    关注

    1791

    文章

    46738

    浏览量

    237315

原文标题:AI下个大突破之前奏:研究人员正在教大型语言模型 “看” 世界,进而理解世界

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AMD发布10亿参数开源AI模型OLMo

    AMD公司近日宣布了一项重大进展,推出了首个完全开放的10亿参数语言模型系列——AMD OLMo。这一举措为开发者和研究人员提供了强大的AI研究
    的头像 发表于 11-12 18:08 344次阅读

    从零开始训练一个大语言模型需要投资多少钱?

    一,前言   在AI领域,训练一个大型语言模型(LLM)是一个耗时且复杂的过程。几乎每个做大型语言
    的头像 发表于 11-08 14:15 122次阅读
    从零开始训练一<b class='flag-5'>个大</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>需要投资多少钱?

    AI模型的最新研究进展

    AI模型的最新研究进展体现在多个方面,以下是对其最新进展的介绍: 一、技术创新与突破 生成式AI技术的爆发 : 生成式
    的头像 发表于 10-23 15:19 274次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    偏见、伦理道德等问题。此外,如何更好地将AI与科学研究人员的传统工作模式相融合,也是一个亟待解决的问题。未来,随着技术的不断进步和应用场景的拓展,AI for Science有望在更多领域发挥关键作用
    发表于 10-14 09:16

    基于CPU的大型语言模型推理实验

    随着计算和数据处理变得越来越分散和复杂,AI 的重点正在从初始训练转向更高效的AI 推理。Meta 的 Llama3 是功能强大的公开可用的大型语言
    的头像 发表于 07-18 14:28 459次阅读
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理实验

    AI模型与传统AI的区别

    AI模型(如LLM,即大型语言模型)与传统AI在多个方面存在显著的区别。以下将从技术层面、应用
    的头像 发表于 07-15 11:37 2217次阅读

    谷歌发布新型大语言模型Gemma 2

    在人工智能领域,大语言模型一直是研究的热点。近日,全球科技巨头谷歌宣布,面向全球研究人员和开发人员,正式发布了其最新研发的大
    的头像 发表于 06-29 09:48 398次阅读

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》2.0

    、自然语言处理感兴趣的研究人员、工程师以及学生阅读。无论是初学者还是有一定基础的专业人士,都能从中获得有价值的信息。
    发表于 05-07 10:30

    【大语言模型:原理与工程实践】大语言模型的基础技术

    语言模型基础技术21随着Transformer结构在机器翻译领域取得巨大成功,研究人员开始探索其在其他自然语言处理任务中的潜力。很快,Transformer 结构被证明不仅适用于序列
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    。 大语言模型的缩放定律对于深度学习研究和应用具有重要意义。它提供了更强大的泛化能力和适应性,使得模型能够更好地处理现实世界中的复杂任务和不确定性问题。同时,缩放定律也促进了开放性
    发表于 05-04 23:55

    谷歌发布轻量级开源人工智能模型Gemma

    谷歌近日宣布推出开源人工智能(AI模型系列Gemma,旨在为开发人员研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年Op
    的头像 发表于 02-23 11:38 785次阅读

    中国批准14个大语言模型供公众使用,赶超美国AI进程加速

    据钛媒体报道,近期中国监管部门已经批准了14个大语言模型公开服务,自启动审批流程至今刚好半年时间,已核准40多个AI大型模型,显示出我国在该
    的头像 发表于 01-30 09:40 831次阅读

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    和语法规则,将这些词汇串联起来,形成一个完整的回答 关于LLaMA及LLaMA.cpp LLaMA全称是Large Language Model Meta AI,是由Meta AI研究人员发布的一个
    发表于 12-22 10:18

    LabVIEW进行癌症预测模型研究

    效果。 LabVIEW在此研究中的应用展示了其在处理复杂医学数据和开发高效预测模型方面的独特优势,特别是在癌症早期诊断和治疗策略的研究中。通过使用LabVIEW,研究人员可以更快、更准
    发表于 12-13 19:04

    探索高效的大型语言模型大型语言模型的高效学习方法

    大型语言模型(LLMs)的应用中,提示工程(Prompt Engineering)是一种关键技术,用于引导模型生成特定输出或执行特定任务。通过精心设计的提示,可以显著提高LLMs的性
    发表于 12-13 14:21 562次阅读
    探索高效的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>!<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的高效学习方法