为提升虚拟助手智能谷歌发布了最大的的任务型对话数据集SGD帮其开发-电子发烧友网

近日，谷歌软件工程师Abhinav Rastogi和工程主管Pranav Khaitan称在谷歌虚拟助手中，已经引入了新的方法，更好地支持新服务。谷歌团队称，目前虚拟助手可帮助用户完成各种各样的任务，包括寻找航班，搜索附近的活动和电影并进行预订，从网上获取信息等等。他们通过为网络上的各种服务提供统一的自然语言界面来提供此功能。

为了适应未来的增长，虚拟助手必须能够轻松支持新服务，并减少维护工作量，而无需收集其他数据或重新训练模型。

而像Google Assistant这样的大型虚拟助手，需要与众多领域中不断增加的大量服务集成在一起，但每种服务都可能具有重叠的功能。这一适应性问题在最新模型中常常被忽略。这在一定程度上是由于缺乏合适的数据集，这些数据集无法与虚拟助手所面对的规模和复杂性相匹配。

在谷歌最近的论文《迈向可扩展的多域对话代理：模式指导的对话数据集》（Towards Scalable Multi-domain Conversational Agents： The Schema-Guided Dialogue Dataset）中，研究团队引入了一个新的数据集SGD（Schema-Guided Dialogue dataset）来解决这些问题。该团队表示，此数据集将会成为有效的测试平台，可用于意图预测，槽位填充，状态跟踪和语言生成以及大型虚拟助手的其他任务。

目前，谷歌已发布SGD数据集，谷歌表示，发布SGD数据集的基本目标是应对许多现有数据集无法充分解决的现实挑战。谷歌研究团队称，SGD数据集是目前公开可用的、最大的任务型对话数据集。

在此之前，9月17日，亚马逊在GitHub上发布了超470万单词21万句子的语料库，并声称这个数据集支持“高质量”和“可重复”的对话系统研究，将成为研究界公开可用的最大的基于知识的社交对话数据集。

SGD数据集由人类和虚拟助手之间超过18000条的带注释的任务型对话组成。这些对话涉及17个领域。对于大多数领域，数据集包含多个不同的API，其中许多API 具有重叠的功能，但接口不同，这反映了典型的真实场景。SGD是第一个涵盖多个领域并为每个域提供多个API的数据集。此外，为了量化模型对API接口更改或添加新API，评估集还包含了许多训练集没有的新服务。

目前，利用SGD数据集就可以训练虚拟助手来支持互联网上各种各样的服务。而为达到这种功能，通用方法是需要一个master schema，来列出所有受支持的功能及其参数。但是，开发出适合所有使用案例的master schema很难。即使开发成功，master schema也会使新的或小型服务的集成复杂化，并会增加维护虚拟助手的工作量。此外，尽管跨服务可以有许多相似的概念可以联合建模，例如用于查询或指定电影票、机票或音乐会票数量在逻辑上有相似性，但除非手动定义它们之间的显式映射，否则master schema方法并不便于对此类概念进行联合建模。

对此，谷歌团队提出了的新的模式指导方法。此方法不需要为助手设定master schema。相反，每个服务或API都会提供其模式功能及其相关属性的自然语言描述。然后，这些描述会用于学习模式的分布式语义表示，语义表示则会作为对话系统的附加输入。对话系统之后就会被作为不包含域或服务特定参数的单个统一模型。这种统一模型利于在不同服务中相似概念之间的常识表示，而使用模式的分布式表示可以对训练数据中不存在的新服务进行操作。

目前，谷歌已经将这一方法用在了开源对话状态跟踪模型中，该模型在常规设置中仍具有竞争力，且适用于 zero-shot 设置（即没有针对新服务和API的训练数据）。

“我们认为该数据集将会成为建立大规模对话模型的良好基准，” Rastogi和Khaitan称。“我们期待研究界将其用于对话技术的发展创新。”
责任编辑：lw

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6164

浏览量
105328
人工智能

人工智能

+关注

关注
1791

文章
47208

浏览量
238303

谷歌正式发布Gemini 2.0 性能提升近两倍

在智能体时代，谷歌再次引领技术潮流，正式发布了其最新力作——Gemini 2.0。这款AI模型不仅在性能上实现

发表于 12-12 14:22 •259次阅读

昆仑万维实时语音对话助手Skyo即将上线

近日，昆仑万维正式向公众介绍了其最新研发成果——“天工大模型4.0”4o版(Skywork 4o)以及备受瞩目的新产品“实时语音对话助手Skyo”。 Skyo作为一款

发表于 11-21 13:38 •284次阅读

为什么通信要使用虚拟串口和串口助手？

串口助手和虚拟串口是什么？串口助手和虚拟串口在串口通信中很常见。串口助手是用于串口通信的软件工具，能发送和接收

发表于 11-15 01:04 •878次阅读

为什么通信要使用<b class='flag-5'>虚拟</b>串口和串口<b class='flag-5'>助手</b>？

百度发布智能代码助手“文心快码”

在近日举办的WAVE SUMMIT大会上，百度公司震撼发布了全新的智能代码助手——“文心快码”。这款基于百度文心大模型的强大工具，结合了海量

发表于 07-01 11:20 •897次阅读

谷歌发布新型大语言模型Gemma 2

在人工智能领域，大语言模型一直是研究的热点。近日，全球科技巨头谷歌宣布，面向全球研究人员和开发人员，正式发布了

发表于 06-29 09:48 •435次阅读

百川智能发布Baichuan 4大模型及首款AI助手“百小应”

百川智能近日发布了其新一代基座大模型Baichuan 4，并同步推出了首款AI助手“百小应”。这款AI助

发表于 05-23 14:15 •613次阅读

谷歌发布新一代TPU芯片，欲挑战OpenAI，挑战语音助手市场

当日，谷歌在年度I/O开发者大会上展示了一系列人工智能产品，包括新增的旗舰级Gemini AI模型Gemini 1.5 Flash以及AI搜索引擎等，进一步巩固

发表于 05-17 09:36 •435次阅读

HarmonyOS CPU与I/O密集型任务开发指导

一、CPU密集型任务开发指导 CPU密集型任务是指需要占用系统资源处理大量计算能力的任务，需要长

发表于 02-18 10:17 •974次阅读

智能语音助手在医疗行业的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手在医疗行业的应用越来越广泛。语音数据集在医疗智能

发表于 01-19 17:37 •666次阅读

智能语音助手在旅游行业的应用与挑战

一、引言随着人工智能技术的不断发展和普及，智能语音助手在旅游行业的应用越来越广泛。语音数据集在旅游智能

发表于 01-19 17:30 •794次阅读

智能语音助手在教育行业的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手在教育行业的应用越来越广泛。语音数据集在教育智能

发表于 01-19 17:21 •849次阅读

智能语音助手在医疗行业的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手在医疗行业的应用越来越广泛。语音数据集在医疗智能

发表于 01-18 16:41 •525次阅读

语音数据集在智能语音助手中的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手已经成为了人们日常生活中不可或缺的一部分。语音数据集在

发表于 01-18 15:46 •389次阅读

语音数据集：推动智能语音技术发展的关键驱动力

发展方向。一、语音数据集的重要性语音数据集是智能语音技术的基石，它提供了大量的语音样本和对应

发表于 12-28 13:46 •569次阅读

语音数据集在智能家居中的应用与挑战

随着科技的快速发展，智能家居已经逐渐走进人们的生活。语音数据集在智能家居中发挥着重要的作用，为家居设备提供

发表于 12-25 09:48 •640次阅读

搜索历史

为提升虚拟助手智能谷歌发布了最大的的任务型对话数据集SGD帮其开发

评论

谷歌正式发布Gemini 2.0 性能提升近两倍

昆仑万维实时语音对话助手Skyo即将上线

为什么通信要使用虚拟串口和串口助手？

百度发布智能代码助手“文心快码”

谷歌发布新型大语言模型Gemma 2

百川智能发布Baichuan 4大模型及首款AI助手“百小应”

谷歌发布新一代TPU芯片，欲挑战OpenAI，挑战语音助手市场

HarmonyOS CPU与I/O密集型任务开发指导

智能语音助手在医疗行业的应用与挑战

智能语音助手在旅游行业的应用与挑战

智能语音助手在教育行业的应用与挑战

智能语音助手在医疗行业的应用与挑战

语音数据集在智能语音助手中的应用与挑战

语音数据集：推动智能语音技术发展的关键驱动力

语音数据集在智能家居中的应用与挑战