Google发布用于训练通用智能助理的架构数据集-电子发烧友网

（文章来源：十轮网）

为了满足智能助理需要执行越来越多复杂任务的需求，Google发布了最新的架构引导对话（Schema-Guided Dialogue，SGD）数据集，以扩展智能助理模型，使其有能力处理多重领域的任务。

现在的智能助理可以完成的任务越来越多，包括预定餐厅或是截取网络消息等，Google提到，像是Google助理这类智能助理集成了众多领域的服务，每个服务可能由不同领域的服务叠加而成。为了适应这样的发展，让智能助理能够支持更多的新服务，而不需要收集额外的数据或是重新训练模型，降低维护成本。因此Google发布SGD数据集，来填补训练智能助理处理复杂与大规模任务所需要的数据集空缺。

SGD数据集是目前最大的任务导向对话语料库，Google使用绿野仙踪（Wizard of Oz）方法产生人类与助理的对话，共包含跨17个领域18,000个对话，并附加了不同的注解。这些对话涉及与服务和API的交互，包括银行服务、事件、日历甚至是天气等17个领域，而在多数的领域，SGD数据集包含多个不同的API，不少API接口不同但是功能重复，以反应实际的状况。

Google表示，SGD数据集是第一个涵盖这么多领域，会为每个领域都提供多个API的数据集，而且为了量化模型对API接口更新或是新API的强健性，评估数据集包含了许多在训练数据集中，所没有的新服务。

用户使用SGD数据集，可以训练智能助理支持网页的多样服务，Google提到，要完成这个目的，通常需要一个大型的主要架构（Master Schema），罗列所有支持的功能和参数，但实际上，要开发适合所有使用案例的主架构非常困难，而且即便克服了这项障碍，主架构也可能会让新的或是小型服务的集成变得复杂，进而增加智能助理的维护成本。

而且不少服务之间使用相似的概念，像是订票服务，电影票、机票和演奏会门票逻辑都相似，但使用主架构的方法，就会不方便对这类概念进行连接建模，除非以手动的方式定义之间的映射。

Google提出了一个新的架构引导方法解决这些问题，这个新方法不需要为智能助理定义一个主架构，而是为每个服务或是API，提供功能与相关属性列表的自然语言描述，这些描述可以用于学习一个架构的分布式语义表达，为对话系统提供额外的输入，并将对话系统以单个统一的模型实例，这个统一模型为不同服务提供相似概念的表示，并通过架构的分布式表达，使得新服务可以不需要事先有训练数据就能运行。

Google为此还以架构引导方法创建了一个智能助理，在所有服务和领域使用单一模型，没有设置各领域的专门参数，就能处理各式任务，Google开源了用于对话状态关注的模型，可以在新服务和API没有训练数据的情况下，同时保有与常规设置相同的能力。
（责任编辑：fqj）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6164

浏览量
105311
AI

AI

+关注

关注
87

文章
30762

浏览量
268905

搜索历史

Google发布用于训练通用智能助理的架构数据集

评论

Google DeepMind发布Genie 2：打造交互式3D虚拟世界

AI大模型的训练数据来源分析

pycharm怎么训练数据集

如何理解机器学习中的训练集、验证集和测试集

AI训练狂飙，DDR5集成PMIC护航，内存技术持续助力

PyTorch如何训练自己的数据集

K折交叉验证算法与训练集

【大语言模型：原理与工程实践】大语言模型的预训练

上汽通用五菱天舆架构覆盖全尺寸车型发布

语音数据集在智能驾驶中的关键作用与应用

语音数据集：智能驾驶中车内语音识别技术的基石

语音数据集：智能语音技术的燃料与推动力

语音数据集：开启智能语音技术的新篇章

语音数据集：推动人工智能语音技术的关键要素

语音数据集：推动智能语音技术发展的关键驱动力