0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google发布用于训练通用智能助理的架构数据集

独爱72H 来源:十轮网 作者:佚名 2019-10-31 17:05 次阅读

(文章来源:十轮网)

为了满足智能助理需要执行越来越多复杂任务的需求,Google发布了最新的架构引导对话(Schema-Guided Dialogue,SGD)数据集,以扩展智能助理模型,使其有能力处理多重领域的任务。

现在的智能助理可以完成的任务越来越多,包括预定餐厅或是截取网络消息等,Google提到,像是Google助理这类智能助理集成了众多领域的服务,每个服务可能由不同领域的服务叠加而成。为了适应这样的发展,让智能助理能够支持更多的新服务,而不需要收集额外的数据或是重新训练模型,降低维护成本。因此Google发布SGD数据集,来填补训练智能助理处理复杂与大规模任务所需要的数据集空缺。

SGD数据集是目前最大的任务导向对话语料库,Google使用绿野仙踪(Wizard of Oz)方法产生人类与助理的对话,共包含跨17个领域18,000个对话,并附加了不同的注解。这些对话涉及与服务和API的交互,包括银行服务、事件、日历甚至是天气等17个领域,而在多数的领域,SGD数据集包含多个不同的API,不少API接口不同但是功能重复,以反应实际的状况。

Google表示,SGD数据集是第一个涵盖这么多领域,会为每个领域都提供多个API的数据集,而且为了量化模型对API接口更新或是新API的强健性,评估数据集包含了许多在训练数据集中,所没有的新服务。

用户使用SGD数据集,可以训练智能助理支持网页的多样服务,Google提到,要完成这个目的,通常需要一个大型的主要架构(Master Schema),罗列所有支持的功能和参数,但实际上,要开发适合所有使用案例的主架构非常困难,而且即便克服了这项障碍,主架构也可能会让新的或是小型服务的集成变得复杂,进而增加智能助理的维护成本。

而且不少服务之间使用相似的概念,像是订票服务,电影票、机票和演奏会门票逻辑都相似,但使用主架构的方法,就会不方便对这类概念进行连接建模,除非以手动的方式定义之间的映射。

Google提出了一个新的架构引导方法解决这些问题,这个新方法不需要为智能助理定义一个主架构,而是为每个服务或是API,提供功能与相关属性列表的自然语言描述,这些描述可以用于学习一个架构的分布式语义表达,为对话系统提供额外的输入,并将对话系统以单个统一的模型实例,这个统一模型为不同服务提供相似概念的表示,并通过架构的分布式表达,使得新服务可以不需要事先有训练数据就能运行。

Google为此还以架构引导方法创建了一个智能助理,在所有服务和领域使用单一模型,没有设置各领域的专门参数,就能处理各式任务,Google开源了用于对话状态关注的模型,可以在新服务和API没有训练数据的情况下,同时保有与常规设置相同的能力。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6164

    浏览量

    105311
  • AI
    AI
    +关注

    关注

    87

    文章

    30762

    浏览量

    268905
收藏 人收藏

    评论

    相关推荐

    Google DeepMind发布Genie 2:打造交互式3D虚拟世界

    的交互式体验。 据了解,Genie 2是一个自回归潜在扩散模型,它基于大型视频数据进行训练。通过自动编码器,视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与大语言模型类似的因果掩码进行
    的头像 发表于 12-05 14:16 407次阅读

    AI大模型的训练数据来源分析

    学术机构、政府组织或企业公开发布,涵盖了各种类型的数据,如图像、文本、音频、视频等。例如: ImageNet :一个广泛用于图像识别任务的大规模图像数据
    的头像 发表于 10-23 15:32 554次阅读

    pycharm怎么训练数据

    在本文中,我们将介绍如何在PyCharm中训练数据。PyCharm是一款流行的Python集成开发环境,提供了许多用于数据科学和机器学习的
    的头像 发表于 07-11 10:10 628次阅读

    如何理解机器学习中的训练、验证和测试

    理解机器学习中的训练、验证和测试,是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习与评估的基础框架,还直接关系到模型性能的可靠性和泛化能力。以下是一篇深入探讨这三
    的头像 发表于 07-10 15:45 3814次阅读

    AI训练狂飙,DDR5成PMIC护航,内存技术持续助力

    电子发烧友网报道(文/黄晶晶)AI训练数据正高速增长,与之相适应的不仅是HBM的迭代升级,还有用于处理这些海量数据的服务器内存技术的不断发
    的头像 发表于 07-04 09:09 3618次阅读
    AI<b class='flag-5'>训练</b>狂飙,DDR5<b class='flag-5'>集</b>成PMIC护航,内存技术持续助力

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据
    的头像 发表于 07-02 14:09 1648次阅读

    K折交叉验证算法与训练

    K折交叉验证算法与训练
    的头像 发表于 05-15 09:26 547次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求也相应
    发表于 05-07 17:10

    上汽通用五菱天舆架构覆盖全尺寸车型发布

    4 月 7 日,上汽通用五菱公布其新款智能架构——天舆架构。该架构预计在 4 月 12 日 15 时召开的宝骏悦也家族新品
    的头像 发表于 04-07 16:04 336次阅读

    语音数据智能驾驶中的关键作用与应用

    中的关键作用、应用、挑战以及未来的发展趋势。 二、语音数据智能驾驶中的关键作用 训练与优化:高质量的语音数据
    的头像 发表于 01-31 16:22 464次阅读

    语音数据智能驾驶中车内语音识别技术的基石

    的发展趋势。 二、语音数据智能驾驶中的应用 训练与优化:高质量的语音数据
    的头像 发表于 01-31 16:07 543次阅读

    语音数据智能语音技术的燃料与推动力

    语音数据智能语音技术的发展中扮演着至关重要的角色。它们是训练语音识别、语音合成等模型的基础数据,对于提高模型的准确性和鲁棒性具有关键作
    的头像 发表于 12-29 11:11 408次阅读

    语音数据:开启智能语音技术的新篇章

    。 一、语音数据的重要性 语音数据智能语音技术的基石。通过收集大量的语音数据,可以
    的头像 发表于 12-29 11:06 698次阅读

    语音数据:推动人工智能语音技术的关键要素

    、应用、挑战及发展前景进行简要概述。 一、语音数据的重要性 语音数据是人工智能语音技术的基石。它们为模型
    的头像 发表于 12-29 11:00 635次阅读

    语音数据:推动智能语音技术发展的关键驱动力

    发展方向。 一、语音数据的重要性 语音数据智能语音技术的基石,它提供了大量的语音样本和对应的标签,
    的头像 发表于 12-28 13:46 566次阅读