对话机器人之Sparrow简介-电子发烧友网

1 简介

DeepMind提出的Sparrow，相对于以往的方法，是一种更加有用，准确并且无害的信息检索对话机器人。

在之前的对话研究中，往往会针对对话的不同方面去设计对应的任务跟模块，例如知识性，一致性，长期记忆等等，但是Sparrow则不然，它直接根据用户的用户的反馈进行学习，这样能尽可能让模型对齐真实的用户行为，而不再需要关注过于琐碎的诸多对话细节。

图1: Sparrow测试样例

2 Sparrow

整个流程是通过Sparrow模型根据当前对话生成多个候选回复，让用户去判断那个回复最好，哪些回复违反了预先设置好的规则，基于用户的反馈去训练对应的Reward模型，利用训练好的Reward模型，用强化学习算法再去优化Sparrow的生成结果。

图2:Sparrow框架

Reward

Sparrow学习的用户反馈分为两种，一种用户判断对话是否违背某些预设置好的规则，另一种的是从用户根据当前对话从个候选答案里选择最合适的一个。这两种反馈分为对应两个不同的模型，Rule reward model跟Preference reward model。

对于Rule reward model，首先需要根据任务自定义对应的一些规则，例如判断机器人是否在回答用户问题，话题是否变化等等，规则样例如下图所示。在具体训练数据构造时，用户在给定对话条件下，还会给某个特定规则，让用户有意识的引导机器人去违反对应的规则，然后再由用户评估机器人回复是否违反对应的规则。

之所以采用这种方式是为了更高效的积累到高质量样本。用构造好的训练数据训练对应的分类模型，判断机器人回复是否违反对应的规则，每个规则对应一个分类模型，彼此独立。

图3:规则示例

对于Preference reward model，在给定当前对话条件下，利用多种方式生成多个候选答案（通过是否引入知识检索，不同生成模型，不同prompt，不同采样策略），让用户从中选择最合适的答案。利用这些构造好的数据训练可以得到对应的分类模型，判断用户对于当前回复的倾向。

以下图为例，共有8个候选答案，其中前四个是不不经过知识检索直接生成的，后面四个是通过两个不同的检索query进行知识检索，将得到的检索结果跟当前对话合并再一起后再生成回复的。

图4: 回复生成流程

Reranking

当上述两个Reward模型给候选答案生成对应的得分后，通过一个重排机制综合考虑两者的得分可以进一步优化对话机器人的性能。

Evidence

前面提及的答案生成是可以通过知识检索，根据当前上下文生成对应的query，利用Google进行搜索，将得到的结果跟当前对话信息组合，然后再生成对应的回复。之前也写过一些相关的文章，有兴趣可以自行查看文本生成系列之retrieval augmentation（思考篇）。

Reinforcement learning

这里强化学习每一步的状态是当前的对话上下文，ac tion是具体的token，利用前面提及的rule reward model跟preference reward model来给action打出对应的reward得分，从而优化Sparrow的输出结果。在强化学习训练过程中，如果机器人生成的回复reward超过预期的话，就会把当前对话上下文+机器人回复作为新的训练数据加入到语料中，扩充训练语料库。

图5: 强化学习流程

3 总结

个人认为，Sparrow对话机器人，最大的特色在于直接对用户的反馈进行学习，那样就不需要为对话各种琐碎细节去设计不同的模块跟任务，把决策权进一步交给模型，让模型自己去学，而对于那些机器人可能学不好的地方，通过预先定义的规则去构造对应的训练数据，让模型自己去补全。By the way, 可以好好期待一波ChatGPT了。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28390

浏览量
206957

原文标题：对话机器人之Sparrow

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

AI火爆对话机器人将成为App之后的新入口？

Bot即智能对话机器人，被业界定义为后App时代的全新人机交互方式，譬如苹果Siri，微软小冰，小i机器人虚拟客服等等。例如，目前用户可以用Siri打开滴滴叫车，这意味着用户可以直接通过Bots获取服务，而不需要进入App。

发表于 10-26 08:54 •1472次阅读

电话机器人显著提高回款效率，对催收帮助不言而喻。

据的方向，电话机器人最核心的语音识别，机器人必须在最短时间内识别客户的关键词，并导入下一级菜单（即作出相应的应答）。在整个对话当中，机器人女声礼貌温和、应答自如，完全分辨不出是否人工，

发表于 03-16 15:48

智能打电话，机器人哪家比较好如何选择合适的电销机器人

的智能电销机器人不是有身体有四肢那种实体存在的机器人，而是一套人工智能程序系统，所谓的人工智能机器人都是靠人工智能程序支撑，机器人只是一个载体而已。　智能打电

发表于 05-03 13:18

电销机器人的优点

。金融、保险、房地产、汽车等各个行业不同，大数讯机器人所制定的话术也不尽相同。且大数讯智能电话机器人会根据公司的侧重点及方向来制定话术，使其更有针对性的来跟客户对话。使用大数讯智能电话机器人

发表于 06-12 10:27

电话机器人:电销行业精准筛选客户的利器

工作量巨大的工作，不得不说每天有很大一部分时间需要安排在筛选大量意向客户身上，而挖掘已有客户的时间少之又少。一、精准筛选意向客户——提高效率智能挑选意向客户：电话机器人能够正常的和客户交流、挑选意向

发表于 08-21 11:27

华云天下智能电话机器人有哪些优势？

的公司。机器人和人一样，只有不断学习，才能提高它的识别能力。在有限的话术配置下，转接人工座席就显得尤为重要。华云天下电话机器人就是不一样！多数厂商的智能电话机器人仅有一到两轮

发表于 08-22 14:44

机器人简介

一.机器人简介：机器人（Robot）是自动执行工作的机器装置。它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动。它的任务是协助或取代人类工作的

发表于 09-07 06:05

机器人系统与控制需求简介

第二章 机器人系统与控制需求简介2.1 工业机器人的系统组成机械本体：精密减速机、伺服电机、伺服驱动器、控制系统（核心零部件）控制柜示教盒2.2 机器人本体结构与传动方式

发表于 09-08 07:44

设计一个能自由行走并且可以与人语音对话机器人的设计资料分享

在我的想象中机器人首先应该能自由的走来走去，然后应该能流利的与主人对话。朝着这个理想，我准备设计一个能自由行走，并且可以与人语音对话的机器人。实现的关键是让

发表于 12-17 06:58

电话机器人是什么？电销机器人有什么用？有多少电话机器人品牌？

代替人类工作的电话机器人。　　电话机器人采用了最前沿的深入学习技术，先进的语音识别（ＡＳＲ）、口语理解（ＳＬＵ）、对话管理（ＤＭ）、自然语言生成（ＮＬＧ）、文本生成语音（ＴＴＳ）五种对话

发表于 07-26 19:35 •812次阅读

检索式智能对话机器人开发实战案例详细资料分析概述

本文档的主要内容详细介绍的是检索式智能对话机器人开发实战案例详细资料分析概述主要内容包括了：第一个智能聊天机器人，人工智能标记语言AIML，AIML基础功能拓展进阶，AIML框架源码剖析

发表于 08-02 17:47 •16次下载

外呼对话机器人，自动批量外呼、智能人机对话-汉云

外呼对话机器人融合传统呼叫中心通信技术、智能AI等计算机技术，实现自动真人语音外呼，智能人机对话等场景，其目的是帮助座席高效完成外呼任务，为企业降低外呼成本，代替辅助人工快速获客。　　随着国内呼叫

发表于 01-14 09:25 •3177次阅读

对话机器人的智能程度判断方法介绍

有些对话机器人总让人崩溃，也许是智能级别不够高。本文，就来一起看看如何判断一个机器人的智能程度。随着智能对话技术的发展，对话机器人越来

发表于 01-06 17:50 •2432次阅读

AI应用全面爆发 对话机器人成热趋

近日，艾瑞发布了题为《2021中国对话机器人chatbot行业发展研究》报告（下文简称《报告》）。报告针对对话机器人的产品流程、发展历程、市场规模及应用场景分布进行了行业嵌入式研究分析及梳理，对上

发表于 10-14 09:55 •928次阅读

对话机器人之LaMDA

来自：NLP日志提纲1 简介 2 LaMDA 3 总结 1 简介 LaMDA是在DeepMind的Sparrow跟openai的instructGPT之前由谷歌提出的对话机器人，全称

发表于 01-04 14:49 •1085次阅读

搜索历史

对话机器人之Sparrow简介

评论

AI火爆对话机器人将成为App之后的新入口？

电话机器人显著提高回款效率，对催收帮助不言而喻。

智能打电话，机器人哪家比较好如何选择合适的电销机器人

电销机器人的优点

电话机器人:电销行业精准筛选客户的利器

华云天下智能电话机器人有哪些优势？

机器人简介

机器人系统与控制需求简介

设计一个能自由行走并且可以与人语音对话机器人的设计资料分享

电话机器人是什么？电销机器人有什么用？有多少电话机器人品牌？

检索式智能对话机器人开发实战案例详细资料分析概述

外呼对话机器人，自动批量外呼、智能人机对话-汉云

对话机器人的智能程度判断方法介绍

AI应用全面爆发对话机器人成热趋

对话机器人之LaMDA