0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

深度学习自然语言处理 来源:深度学习自然语言处理 2023-07-06 16:44 次阅读

1.

引言

由于构建任务型对话数据集的成本较高,目前任务型对话的研究主要集中在少数流行语言上(如英语和中文)。为了降低新语言的数据采集成本,我们通过结合纯人工翻译和人工编辑机器翻译结果的方式创建了一个新的多语言基准——X-RiSAWOZ,该数据集将中文RiSAWOZ翻译成4种语言:英语、法语、印地语、韩语,以及1种语码混合场景(印地语-英语混合)。X-RiSAWOZ中每种语言都有超过18,000个经过人类验证的对话语句,与之前大多数多语言工作不同的是,它是一个端到端的数据集,可用于建立功能齐全的对话代理。除数据集外,我们还构建了标注和处理工具,使得向现有数据集中添加新语言变得更快、更经济。

2.

数据集介绍

任务定义:端到端任务型对话通常被分解为若干子任务,这些任务可以由流水线系统或单个神经网络执行。下图展示了这些子任务及其输入和输出:

0d7630b6-1bd5-11ee-962d-dac502259ad0.png

图1:端到端任务型对话流程

数据来源:我们翻译了RiSAWOZ数据集的验证集与测试集,同时为了促进少样本对话系统的研究,我们还随机选取了1%的训练集进行翻译,统计数据如下表所示:

0d9d1c12-1bd5-11ee-962d-dac502259ad0.png

图2:X-RiSAWOZ数据集统计

数据集构建方案:为了实现低成本和高质量的多语言端到端任务型对话数据构建,我们使用以下几种技术从源语言数据(中文RiSAWOZ数据集)创建目标语言的训练数据:

1. 翻译:为了在质量和成本之间取得平衡,我们使用纯人工翻译从中文翻译成英文,并使用机器翻译和后期编辑将英语数据翻译成其他语言,以尽可能避免两次翻译过程中可能的错误传播。

2. 对齐:我们提出了一种混合对齐策略,以确保实体在话语和信念状态中都能被替换为所需的翻译。具体而言,我们首先尝试使用基于实体标注构建的字典对齐,如果输出中没有匹配的翻译,则退回到神经对齐(即使用encoder-decoder cross-attention权重匹配源语言和目标语言中相对应的实体)。

3. 自动标注检查:我们开发了一个标注检查器来自动标记和纠正可能存在的错误,包括1)实体检查阶段——确保在实体的英语翻译中所做的更改传播到其他目标语言的翻译,以及2)API检查阶段——通过将翻译后API调用的结果与提供的真实值进行比较来检查API的一致性。

数据构建与检查的流程如下图所示:

0daf5ad0-1bd5-11ee-962d-dac502259ad0.png

图3:数据集构建流程(以汉语到英语为例)

0dd272ae-1bd5-11ee-962d-dac502259ad0.png

图4:数据集检查流程(以汉语到法语为例)

3.

实验结果

我们使用了mBART和m2m100 (for Korean only) 进行实验。对于零样本实验,我们不使用任何人工创建的目标语言数据,只使用基于机器翻译自动创建训练数据。对于少样本实验,我们从零样本模型开始,并在目标语言的少样本数据集上进一步对其进行微调。实验的评估方式有两种:Turn by Turn Evaluation和Full Conversation Evaluation。

Turn by Turn Evaluation:在这种设定下,我们在评估中使用所有先前轮次和子任务的ground truth数据作为输入。结果表明,在零样本设置中,性能因添加的语言而异,各个语言在对话状态追踪 (DST)达到了34.6%-84.2%的准确率,在对话动作生成 (DA)上达到了42.8%-67.3%的准确率,而在回复生成 (RG)上达到10.2-29.9的BLEU值,这意味着零样本任务型对话在低资源语言场景下仍然是极具挑战的任务。在少样本数据上进行微调可以改善所有语言的所有指标,其中DST提高到60.7%-84.6%,DA提高到38.0%-70.5%,而BLEU则提高到了28.5-46.4。从下图的数据中可以看到,在印地语、韩语和英语-印地语中,DST的改进尤其明显,因为在这些语言中,机器翻译的质量可能不太好。尽管如此,将自动翻译的数据添加到训练中也能够大大提高这些语言上任务型对话系统的准确性,超过了仅用少量人工构建数据训练的效果。

0e01c3ce-1bd5-11ee-962d-dac502259ad0.png

图5:零样本Turn by Turn Evaluation的结果

0e1e9274-1bd5-11ee-962d-dac502259ad0.png

图6:少样本Turn by Turn Evaluation的结果

Full Conversation Evaluation:在这种设定下,对于每个轮次,模型从上一个子任务的输出中获取输入,用于下一个子任务。这反映了与用户进行交互式对话时的实际情况。结果显示,在零样本设置中,性能同样因语言而异,其中英语、法语、印地语、韩语和英语-印地语的对话成功率分别达到了使用完整数据训练的中文对话模型的35%、16%、9%、11%和4%。在少-shot设置中,这个比率提高到了38%、26%、25%、23%和5%。可以看到,最小和最大的改进分别在英语和印地语数据集上。这表明,当预训练数据的质量较低时,少样本数据的影响更大,这可能与中文和目标语言之间的翻译模型的质量有关。

0e35674c-1bd5-11ee-962d-dac502259ad0.png

图7:零样本full conversation evaluation的结果

0e570546-1bd5-11ee-962d-dac502259ad0.png

图8:少样本full conversation evaluation的结果

4.

结语

我们构建了X-RiSAWOZ,这是一个新的端到端、高质量、大规模的多领域多语种对话数据集,其涵盖了5种不同的语言和1种语码混合场景,以及一个工具包,以便将数据翻译成其他语言。我们还为跨语言迁移的零/少样本对话系统提供了强大的基线系统。总体而言,我们的工作为更高效、更具成本效益的多语言任务型对话系统的开发铺平了道路。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4762

    浏览量

    100517
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14872
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24635

原文标题:开源数据 | X-RiSAWOZ: 高质量端到端多语言任务型对话数据集

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    多语言开发的流程详解

    现在不少应用都是要求有多语言切换的, 使用QT开发上位机也同样需要做多语言功能, 不过QT是自带了多语言翻译功能, 可以很方便的借助原生工具进行, 下面就简单来看看多语言开发的流程!
    的头像 发表于 11-30 09:08 1038次阅读

    高质量C语言编程

    高质量c语言,精,精,精,精华
    发表于 07-22 13:48

    编写高质量C语言代码

    编写高质量C语言代码 编写高质量C语言代码 编写高质量C语言代码
    发表于 07-31 17:47

    林锐《高质量C语言编程》

    林锐《高质量C语言编程》
    发表于 08-17 12:10

    高质量编程

    干货,《495个C语言问题》、《华为内部程序设计编码规范》、《C语言:陷阱和缺陷》、《高质量C编程[林锐]》
    发表于 02-27 19:39

    XMOS推出用于高质量音频再现的数字iPhone 底座

    XMOS推出用于高质量音频再现的数字iPhone 底座参考设计 英国布里斯托美国加州桑尼韦尔- 2010年2月23日,XMOS推出一套适合iPhone
    发表于 02-23 16:54 835次阅读

    SoC多语言协同验证平台技术研究

    SoC基于IP设计的特点使验证项目中多语言VIP(Verification IP)协同验证的需求不断增加,给验证工作带来了很大的挑战。为了解决多语言VIP在SoC验证环境灵活重用的问题。提出了一种
    发表于 12-31 09:25 12次下载

    Mozilla使用开源Common Voice语音识别数据进行多语言操作

    Mozilla 宣布它正在使其众包项目 Common Voice 支持更多语言。Common Voice 是一个旨在创建开源语音识别数据的项目,于去年6月发布,它邀请来自世界各地的志愿者通过网络和移动应用程序,用他们的声音记录
    的头像 发表于 06-12 11:18 4591次阅读

    2021年OPPO开发者大会 生成式对话模式

    2021年OPPO开发者大会刘海锋:生成式对话模式,基于UniLM和一对多语料的生成式聊天模型满足用户需求。
    的头像 发表于 10-27 14:59 2461次阅读
    2021年OPPO开发者大会 <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>生成式<b class='flag-5'>对话</b>模式

    如何创建高质量、大规模、多语言数据

    方法更利于产生更高质量数据,但高强度的人工注释过程限制了可创建的数据量。另一方面,虽然自动提取方法可以产生更大的数据,但却需要通过启发式
    的头像 发表于 10-29 10:22 2132次阅读

    Multilingual多语言预训练语言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM预训练多语言模型,整体思路基于BERT,并提出了针对多语言预训练的3个优化任务。后续很多
    的头像 发表于 05-05 15:23 2919次阅读

    多语言任务在内的多种NLP任务实现

    WeLM是一个百亿级别的中文模型,能够在零样本以及少样本的情境下完成包括对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解在内的多种NLP任务,并具备记忆能力、自我纠正和检查能力。
    发表于 10-13 11:52 608次阅读

    基于的单噪声图像降噪和校正网络实现高质量的车牌识别

    具有挑战性的LPR数据AOLP-RP和VTLPs进行了大量的实验,证明了我们提出的方法的有效性,并且在从低质量的车牌图像中恢复高质量的车牌图像时本方法优于其他的SOAT方法。
    的头像 发表于 12-13 09:58 924次阅读

    如何构建高质量的大语言模型数据

    构建高质量的大语言模型数据是训练强大自然语言处理模型的关键一步。以下是一些关键步骤和考虑因素,有助于创建具有多样性、准确性和时效性的
    的头像 发表于 09-11 17:00 1480次阅读

    ChatGPT 的多语言支持特点

    )技术迎来了巨大的挑战和机遇。ChatGPT,作为一个领先的语言模型,其多语言支持的特点成为了它在众多应用场景中不可或缺的优势。 1. 多语言理解能力 ChatGPT 的多语言支持首先
    的头像 发表于 10-25 17:30 660次阅读