0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-3引发公众的遐想 能根据文字产生图片的AI!

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-10-09 18:30 次阅读

在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引发公众的遐想。

虽然它可以仅凭很少的文本来输出诗歌、短篇小说和歌曲,并且成功地让人们相信这是人类的创作。但是,它在同人类对话时还是显得非常“幼稚”。可尽管如此,技术人员依然认为,创造了 GPT-3 的技术可能是通往更高级 AI 的必经之路。

GPT-3 使用大量文本数据进行了训练,那么,假如同时使用文本和图像数据进行训练,会发生什么呢?

艾伦人工智能研究所(AI2)在这个问题上取得了进展,技术人员开发了一种新的视觉语言模型,可以根据给定的文本生成对应图像。

不同于 GAN 所生成的超现实主义作品,AI2 生成的这些图像看起来非常怪异,但它的确可能是一个实现通用人工智能的新路径。

AI“做题家”

GPT-3 在分类上属于 “Transformer” 模型,随着 Google BERT 的成功,该模型开始流行。而在 BERT 之前,语言模型可用性不佳。

它们虽然具备一定的预测能力,但并不足以生成符合语法和常识的长句子。BERT 通过引入一种称为 “masking(遮罩)” 的新技术,使模型这方面的能力得到了大幅加强。

模型会被要求完成类似下面的填空题:

这位女士去___锻炼。

他们买了一个___面包做三明治。

这个想法初衷是,如果强迫模型进行数百万次的这类练习,它是否可能学会如何将单词组合成句子以及如何将句子组合成段落。测试结果表明,模型确实获得了更好地生成和解释文本的能力(Google 正在使用 BERT 帮助在其搜索引擎中提供更多相关的搜索结果)。

在证明遮罩行之有效之后,技术人员试图通过将文本中的单词隐藏,将其应用于视觉语言模型,例如:

一只站立在树木旁的___。(来源:MIT TR)

通过数百万次的训练,它不仅可以发现单词之间的组合模式,还可以发现单词与图像中元素之间的关联。

这样的结果就是模型拥有了将文字描述与视觉图像相关联的能力,就像人类的婴儿可以在他们所学的单词同所见事物之间建立联系一样。

举个例子,当模型读取到下面的图片,便可以给出一个较为贴切标题,如 “打曲棍球的女人”。或者它们可以回答诸如“球是什么颜色?” 之类的问题,因为模型可以将单词 “球” 与图像中的圆形物体关联。

图 | 女子曲棍球比赛 (来源:MIT TR)

一图胜千言

技术人员想知道这些模型是否真的像婴儿一样 “学会” 了认识这个世界。

孩子不仅可以在看到图像时联想到单词,还可以在看到单词时在头脑中浮现出对应的图像,哪怕这个图像是真实和想象的混合体。

技术人员尝试让模型做同样的事情:根据文本生成图像。然后模型吐出了无意义的像素图案。

得到这样的结果是有原因的,将文本转换为图像的任务相比其他要困难得多。AI2 的计算机视觉团队负责人 Ani Kembhavi 说,文本并未指定图像中包含的所有内容。因此,模型需要 “联想” 许多现实世界的常识来填充细节。

例如,假设 AI 被要求绘制“在道路上行走的长颈鹿”,它需要推断出这条道路更可能是灰色而不是粉色,并且更可能毗邻草地而不是海洋——尽管这些信息都不明确。

因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 决定看看他们是否可以通过调整遮罩的方式,来教授 AI 所有这些隐式视觉知识。他们训练模型不是为了从对应图片中预测被遮盖的单词,而是为了让它能从文本中 “脑补” 图片中的缺失部分。

虽然模型最终生成的图像并不完全真实,但这不是重点。重要的是这预示着模型已经包含了正确的高级视觉概念,即 AI 一定程度上具备了儿童的根据文本画图的能力。

图 | AI2 模型根据文本生成的图像示例 (来源:MIT TR)

视觉语言模型获得此类图像生成的能力代表了 AI 研究的重要一步,这表明该模型实际上具有一定程度的抽象能力,而这是理解世界的基本技能。

未来,这项技术很可能对机器人领域产生极大影响。机器人可以使用语言进行交流,当它们对视觉信息的理解越好,就越能够执行复杂的任务。

Hajishirzi 说,从短期来看,这种可视化还可以帮助技术人员更好地理解 AI 模型的学习过程。之后,AI2 团队计划展开更多实验,以提高图像生成的质量,并拓宽模型的视觉和语言。

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30095

    浏览量

    268359
  • 人工智能
    +关注

    关注

    1791

    文章

    46838

    浏览量

    237493

原文标题:这些令人不安的照片,表明AI越来越聪明了!它正在学习根据文字生成图片

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI时代算力的重要性及现状:平衡发展与优化配置的挑战

    瓦时的电力。训练一次拥有1746亿参数的GPT-3模型,所需的算力更是高达3640PFlops,耗资466万美元。
    的头像 发表于 11-04 11:45 293次阅读

    英伟达预测机器人领域或迎“GPT-3时刻”

    未来2-3年内,机器人基础模型的研究将迎来重大突破,这一时刻被形象地比喻为机器人领域的“GPT-3时刻”。
    的头像 发表于 09-20 17:05 751次阅读

    Jim Fan展望:机器人领域即将迎来GPT-3式突破

    英伟达科学家9月19日,科技媒体The Decoder发布了一则引人关注的报道,英伟达高级科学家Jim Fan在近期预测,机器人技术将在未来两到三年内迎来类似GPT-3在语言处理领域的革命性突破,他称之为机器人领域的“GPT-3时刻”。
    的头像 发表于 09-19 15:13 524次阅读

    【算RADXA微服务器试用体验】+ GPT语音与视觉交互:4,文字转语音

    tts_venv source tts_venv/bin/activate pip3 install https://github.com/radxa-edge/TPU-Edge-AI/releases
    发表于 07-15 23:18

    推出最新的边缘AI服务器及内置耐AI芯片的PC设备

    - 耐的边缘 AI 服务器 KNEO 330 为中小企业带来 30-40% 的成本节省,同兼顾隐私和安全性。- 耐的边缘 GPT AI
    的头像 发表于 06-05 10:21 572次阅读

    为什么GPU适用于AIAI服务器产业链格局分析

    GPT模型对比BERT模型、T5模型的参数量有明显提升。GPT-3是目前最大的知名语言模型之一,包含了1750亿(175B)个参数。在GPT-3布之前,最大的语言模型是微软的Turi
    发表于 04-09 10:38 827次阅读
    为什么GPU适用于<b class='flag-5'>AI</b>?<b class='flag-5'>AI</b>服务器产业链格局分析

    新火种AI|秒杀GPT-4,狙杀GPT-5,横空出世的Claude 3振奋人心!

    2024年第一季度才刚过半,AI领域就大动作不断,大家卯着劲的出新品,可谓卷出天际。   3月4日,Anthropic发布了最新的Claude 3系列模型,用Anthropic的话说,Claude
    的头像 发表于 03-06 22:22 593次阅读
    新火种<b class='flag-5'>AI</b>|秒杀<b class='flag-5'>GPT</b>-4,狙杀<b class='flag-5'>GPT</b>-5,横空出世的Claude <b class='flag-5'>3</b>振奋人心!

    OpenAI推出ChatGPT新功能:朗读,支持37种语言,兼容GPT-4和GPT-3

    据悉,“朗读”功能支持37种语言,且能够自主识别文本类型并对应相应的发音。值得关注的是,该功能对GPT-4以及GPT-3.5版本的ChatGPT均适用。此举彰显了OpenAI致力于“多模态交互”(multimodal capabilities)的方向
    的头像 发表于 03-05 15:48 845次阅读

    Anthropic推出Claude 3系列模型,全面超越GPT-4,树立AI新标杆

    近日,AI领域的领军企业Anthropic震撼发布了全新的Claude 3系列模型,该系列模型在多模态和语言能力等关键领域展现出卓越性能,成功击败了此前被广泛认为是全球最强AI模型的GPT
    的头像 发表于 03-05 09:49 635次阅读

    MB91530_590 EVB板添加字库,显示图片但是没有文字显示是为什么?

    我的 MB91530_590EVB板在应用例程中添加字库 显示图片但是没有文字显示。 我是在开发板的例程中修改的。 我是按照文档一步一步做的,为什么显示不出文字,有知道原因的请尽快回
    发表于 02-22 08:19

    Rambus HBM3内存控制器IP速率达到9.6 Gbps

    在人工智能大模型浪潮的推动下,AI训练数据集正极速扩增。以ChatGPT为例,去年11月布的GPT-3,使用1750亿个参数构建,今年3
    的头像 发表于 01-23 11:19 918次阅读
    Rambus HBM<b class='flag-5'>3</b>内存控制器IP速率达到9.6 Gbps

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    和1750亿参数的GPT-3都是非常由有竞争力的 MetaAI研究人员认为,当前大模型的高成本阻碍了学术研究,因此,开发出这个更小更强的模型将有利于学术研究的发展。使用较少参数的模型,在更多的tokens上
    发表于 12-22 10:18

    工程师说 | 使用Chat-GPT为RL78 MCU(Arduino)编写AI代码

    Engineer 背景知识 什么是Chat-GPT? Chat-GPT是由OpenAI开发的AI工具,它可以基于预先训练的文本信息理解用户输入的文本或问题,并产生答案。 但是,它并不
    的头像 发表于 12-21 18:20 987次阅读
    工程师说 | 使用Chat-<b class='flag-5'>GPT</b>为RL78 MCU(Arduino)编写<b class='flag-5'>AI</b>代码

    AI模型底层机制解析GPT与神经网络的关系

    GPT 想必大家已经耳熟详,当我们与它进行对话时,通常只需关注自己问出的问题(输入)以及 GPT 给出的答案(输出),对于输出内容是如何产生的,我们一无所知,它就像一个神秘的黑盒子。
    发表于 12-13 09:44 1345次阅读
    <b class='flag-5'>AI</b>模型底层机制解析<b class='flag-5'>GPT</b>与神经网络的关系

    LLM真的推理和规划吗?

    在研究人员选择的模型中,GPT-3 davinci(非指令微调)、GPT-3 textdavinci-001(指令微调)和GPT-3 textdavinci-003(InstructGPT)都是以前观察到过涌现能力的模型。这一选
    发表于 11-30 09:45 628次阅读
    LLM真的<b class='flag-5'>能</b>推理和规划吗?