0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook训练AI问路 探索自然和人造交流

物联网之声 来源:未知 作者:胡薇 2018-07-24 10:43 次阅读

如果你在初来乍到的城市里迷了路,身边又没有地图或者手机导航,你可能会自然而然地向其他人问路。

这件在你看来顺理成章的事情对于人工智能来说却是一个大难关。

AI不能独立地彻底理解人类的自然语言,自然也听不懂使用自然语言的指路,对于虚拟助手而言,仅仅能够对人类提出的问题做出简单的回应,这远远达不到要求。

Facebook的人工智能研究室(FAIR)正在试图突破这一难关。

要让人工智能系统理解人类语言,方法之一就是把语言和特定环境联系起来,以更加自然的方式来训练这些系统。就像婴儿最先学会说的是他们能看到摸到的东西一样,这种方式也被称为具体的人工智能,更偏向于在真实环境中学习,而不是通过大量的文本数据进行训练。

FAIR的研究人员把这一新的研究课题称为Talk the Walk。在这个研究课题中,一对AI智能体相互交流,共同完成导航到指定位置的任务。

但是他们不是将AI智能体置于一个简单的类似于游戏的环境中,而是设计了一个机器人游客,向它展示纽约街区真实的全景照片,让它模拟一位迷路的游客来问路。另一个只记录下周围街区二维地图的机器人作为指路人,输出自然语言,来帮助“游客”找到它的目的地。

通过一种新型的被称为MASC (Masked Attention for Spatial Convolution) 的注意力机制,让导航机器人专注于地图上正确的地方。这种方式使得在测试集上导航的准确率提高了一倍。

Facebook表示,这项工作的目标是要提高学术界对于交流、感知和行动如何影响基础语言学习问题的理解,同时也为把自然语言作为一种人机交互方式提供了压力测试。

FAIR也将发布Talk the Walk的基线和数据集。他们认为开源这项工作可以为其他研究人员提供一个测试他们自己的具体AI系统的框架,特别是在对话方面。

AI将如何扮演游客和导游?

为了为他们的系统提供学习和演示基础语言的环境,FAIR研究人员使用全景摄像头分别拍摄了纽约市五个街区的部分街道,包括曼哈顿的Hell’s Kitchen、East Village、Financial District、Upper East Side以及布鲁克林的Williamsburg。

选定的这些区域都具有统一的、网格状的布局,同时为实验中的每一对AI智能体双方分别提供了一半的第一人称环境视角。

另一方面,AI“导游”只能获取带有通用地标的2D俯视地图,例如“餐厅”和“酒店”。“导游”和“游客”都不能和对方共享自己的视图,因此,必须要沟通才能导航到指定位置。

当导游预测游客已经到达目标位置时,就意味着本次实验的结束。如果预测正确,则导航过程被标记为成功;失败的预测则被标记为不正确。实验不限制移动或交流的次数。

在真实环境中学习对于这一领域来说是全新的,对环境的完全仿真可能会是未来的方向。

FAIR研究人员还创建了智能体之间的自然语言互动,收集了来自人类玩家的真实互动数据,例如“一直走到下一个街区,然后右转进入餐厅”,而不是专门为机器人生成的、经过仔细措辞的信息

这些人类参与者也和机器人一起被分配了导游和游客的角色,具有相同的共享导航目标和信息约束(第一人称视角或俯视地图)。

强调使用真实环境和现实生活语言使整体问题更加困难。与实际城市街区的全景图像相比,模拟的环境一般不会那么混乱,而且更具有可预测性。一系列精心编写的回复也不太可能捕捉到在人与人真实对话中那种微妙的、不精确的和混乱的信息传递。

但是提高任务难度可以使其结果更具相关性。为了能够有效地与人类进行交互,未来的AI系统需要理解在复杂环境中的文本和超出有限的预定短语列表的语言。

探索自然和人造交流

尽管自然语言交流是这项研究的主要焦点,但FAIR团队还设计了两种额外的“紧急通信”设定,在其中智能体使用不同的通信协议而不是模仿人类语言。

第一个设定是,智能体通过连续向量进行通信,这意味着它们将原始数据相互传输。例如,这些连续的向量包括游客正在看到的和做的事情的表示,这能够帮助基于地图的导游来定位他们的同伴。

第二个紧急通信设定采用了完全不同的方法,研究人员称之为人造语言。在这种情况下的交流比自然语言简单得多,使用的是一组非常有限的离散符号来传达信息。

通过为机器人提供以最简单的形式进行通信的选项,从而能够实现快速而精确的互动,这也让我们能更好地了解到自然语言的魅力。

当使用这两种紧急协议而不是自然语言时,AI游客和导游都会表现得更好。这对于研究人员来说并不奇怪,因为AI使用的自然语言没有得到明确的信息交换。

紧密联系AI与其应用环境

将这些研究结果以及FAIR的研究放在适当的背景中非常重要:Talk the Walk不是自然语言和合成交互之间的竞争,而是试图为创建能够和人类有效交互的机器这一最终目标,提供一个清晰而可衡量的结果。

为了证明语言基础的价值,研究人员创建了MASC,一种新型的注意力机制,使得导游根据游客提供的俯视地图的信息,可以预测其位置。

注意力机制通常用于深度学习,以允许系统集中处理某些任务,类似于人们将注意力集中的状态。

MASC根据游客的状态转换(例如向左,向右移动,从俯视角度,向上和向下移动)识别地标嵌入(例如,“餐馆”,“酒吧”等),并将其表示为地图嵌入的2D卷积。该空间掩膜基于对游客可能行进的追踪来预测游客当前的位置。

MASC具有广泛的有效性。它提高了所有通信协议、自然语言和紧急通信方法的本地化性能。

通过将旅游系统的话语与导航系统的地图相关联,MASC的准确性有了大幅改进,是基于合成通信的系统准确度的两倍以上。

人工智能代理经过培训可以生成自己的自然语言信息,在使用这些自然语言的任务中也有更好的表现。用自动生成的自然语言,而不是简单地使用从人类玩家的互动中提取的文字例子,可以明确沟通任务内容。

不相关的闲聊通常是自然语言交互的优势,但对于基于通信交流的任务并非有利,因为闲聊会带来性能的不稳定。

例如,一个人类参与者在看到两家咖啡店和一家邻近的Chipotle后,发出了信息:“天呐,如果我来纽约,这就是我要去的地方!”,其他玩家对此发出“这是天堂啊!”的回应。通过微调和AI代理来生成仅与任务相关的自然语言,由此产生的交互就避免了这些闲聊的分歧和干扰。

最后,这项研究表明,使用自然语言的人类比使用合成通信的AI代理人在本地化方面更糟糕。和Talk the Walk得出的其他人机性能间的比较一样,这是一个重要的结果,它有助于为进一步研究与开发依赖自然语言的AI系统相关的挑战建立基线和可能的机会。

未来的系统能否利用自然语言的多功能性,同时避免人们沟通方式固有的模糊性和低效率?或者对话是否施加了无法规避的限制?作为基础研究,这项研究提出了这些问题,而对它们的回答还有待进一步的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268917
  • Facebook
    +关注

    关注

    3

    文章

    1429

    浏览量

    54726

原文标题:AI迷路了怎么办?Facebook正在训练AI学会问路

文章出处:【微信号:szwlw26059696,微信公众号:物联网之声】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练
    的头像 发表于 12-19 17:54 96次阅读

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 263次阅读

    AI大模型的训练数据来源分析

    AI大模型的训练数据来源广泛且多元化,这些数据源对于构建和优化AI模型至关重要。以下是对AI大模型训练数据来源的分析: 一、公开数据集 公开
    的头像 发表于 10-23 15:32 561次阅读

    如何训练自己的AI大模型

    训练AI大模型之前,需要明确自己的具体需求,比如是进行自然语言处理、图像识别、推荐系统还是其他任务。 二、数据收集与预处理 数据收集 根据任务需求,收集并准备好足够的数据集。 可以选择公开数据集、自有数据集或者通过数据标
    的头像 发表于 10-23 15:07 1312次阅读

    如何训练ai大模型

    训练AI大模型是一个复杂且耗时的过程,涉及多个关键步骤和细致的考量。 一、数据准备 1. 数据收集 确定数据类型 :根据模型的应用场景,确定需要收集的数据类型,如文本、图像、音频等。 寻找数据源
    的头像 发表于 10-17 18:17 877次阅读

    ai模型训练需要什么配置

    AI模型训练是一个复杂且资源密集的过程,它依赖于高性能的硬件配置来确保训练的效率和效果。 一、处理器(CPU) CPU是计算机的核心部件,负责处理各种计算任务。在AI模型
    的头像 发表于 10-17 18:10 1211次阅读

    苹果承认使用谷歌芯片来训练AI

    苹果公司最近在一篇技术论文中披露,其先进的人工智能系统Apple Intelligence背后的两个关键AI模型,是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端AI训练领域
    的头像 发表于 07-30 17:03 728次阅读

    AI训练的基本步骤

    AI(人工智能)训练是一个复杂且系统的过程,它涵盖了从数据收集到模型部署的多个关键步骤。以下是对AI训练过程的详细阐述,包括每个步骤的具体内容,并附有相关代码示例(以Python和sc
    的头像 发表于 07-17 16:57 1998次阅读

    谷歌借助Gemini AI系统深化对机器人的训练

    7月12日,国际科技界传来新动态,谷歌正借助其先进的Gemini AI系统,深化对旗下机器人的训练,旨在显著提升它们的导航能力和任务执行能力。DeepMind机器人团队最新发布的研究论文,详细阐述
    的头像 发表于 07-12 16:29 629次阅读

    Meta与苹果洽谈AI整合,探索更广泛合作前景

    在数字时代的浪潮中,人工智能(AI)正成为各大科技巨头竞相追逐的焦点。近日,有报道称,Meta Platforms Inc.与苹果公司之间的谈判正在悄然进行,双方正探索Facebook的生成
    的头像 发表于 06-24 15:13 554次阅读

    **十万级口语识别,离线自然说技术,让智能照明更懂你**

    固定词条等。针对这些问题,启英泰伦现已推出成熟的可应用于照明设备的离线自然说方案,该方案已在多家智能照明厂商最新产品上实现应用落地。 照明离线自然说方案采用启英泰伦第三代AI语音芯片(芯片Flash
    发表于 04-29 17:09

    AI推理,和训练有什么不同?

    如果要用一句话概括AI训练和推理的不同之处,我觉得用“台上一分钟,台下十年功”最为贴切。话说小明已经和心目中的女神交往数年,在邀约女神出门这件事上积累了大量的经验数据,但却依然捉摸不透其中的玄机
    的头像 发表于 04-29 08:06 210次阅读
    <b class='flag-5'>AI</b>推理,和<b class='flag-5'>训练</b>有什么不同?

    AI训练,为什么需要GPU?

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人工智能(AI
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要GPU?

    基于微流控的人造蜘蛛腺纺出“自然丝”

    近期,日本研究人员研发了一种微流控器件,可纺出与自然产生的蛛丝非常接近的人造蜘蛛丝。
    的头像 发表于 01-25 09:42 583次阅读

    自然语言处理的研究内容

    自然语言处理(NLP)的最新发展改变了我们与AI系统的交互方式: 1. 预训练模型:像 GPT-3 这样的模型已经进步,使人工智能能够在聊天机器人和虚拟助手中生成更连贯的上下文感知响应。 2. 多
    的头像 发表于 01-18 16:39 431次阅读