0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于标签数据提升语法错误纠正效果

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-09-23 15:44 次阅读

语法错误纠正 (GEC) 指的是试图对语法和其他类型的写作错误进行建模,并给出语法和拼写建议,从而改善文档、电子邮件、文章甚至非正式聊天中的书面输出质量。在过去 15 年里,GEC 的质量有了很大提高,其中很大一部分原因是它将问题重塑为一项“翻译”任务。例如,将这种方法引入 Google 文档后,用户采纳的语法纠正建议数量显著增加。

将问题重塑为一项“翻译”任务

https://aclanthology.org/P06-1032/

但是,GEC 模型面临的最大挑战之一是数据稀少。不同于其他语音识别 (Speech recognition) 和机器翻译 (Machine translation) 等自然语言处理 (NLP) 任务,即便是针对英语这样的高资源语言,GEC 可用的训练数据非常有限。对于这类问题,一个常见的补救措施是使用一系列技术来生成合成数据,其中包括启发式随机词或字符级的损坏,以及基于模型的方法。然而,这些方法往往是简化的,不能反映实际用户错误类型的真实分布。

在 EACL 第 16 届创新使用 NLP 构建教育应用研讨会上发表的《使用有标签损坏模型进行语法错误纠正的合成数据生成》 (Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models) 一文中,我们介绍了有标签损坏模型。这种方法受到机器翻译中流行的回译数据合成技术启发,能够精确控制合成数据的生成,确保产生与实践中错误分布更加一致的多样化输出。我们使用有标签损坏模型来生成一个新的数据集(包含 2 亿个句子)。目前这个数据集应发布,可供研究人员提供真实的 GEC 预训练数据。通过将新的数据集整合到训练流水线,我们能够显著改善 GEC 的基线。

使用有标签损坏模型进行语法错误纠正的合成数据生成

https://aclanthology.org/2021.bea-1.4/

回译

https://aclanthology.org/P16-1009/

数据集(包含 2 亿个句子)

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有标签损坏模型

将传统的损坏模型应用于 GEC,其背后的理念是,从一个语法正确的句子开始,然后通过添加错误“损坏”它。通过在现有 GEC 数据集中切换源句和目标句,可以轻松地训练出损坏模型,之前的研究已经表明,这种方法对生成改进的 GEC 数据集非常有效。

提供干净的输入句(绿色)后,传统损坏模型会生成一个不符合语法的句子(红色)

之前的研究

https://aclanthology.org/D19-1119.pdf

我们提出的有标签损坏模型建立在这一理念的基础之上,它将一个干净的句子作为输入,加上一个错误类型标签,描述所要重现的错误类型。然后,它为输入句生成一个包含指定错误类型的语法错误版本。与传统的损坏模型相比,为不同句子选择不同的错误类型增加了损坏的多样性。

有标签损坏模型会根据错误类型标签,为干净的输入句(绿色)生成损坏(红色)。限定词错误可能会导致丢失限定词 “a”,而名词屈折变化错误可能导致错误的复数形式 “sheeps”

为使用此模型生成数据,我们首先从 C4 语料库中随机选择了 2 亿个干净的句子,并为每个句子分配了一个错误类型标签,令其相对频率与小型开发集 BEA-dev 的错误类型标签分布相匹配。由于 BEA-dev 是一个精心制作的集合,涵盖各种英语水平,范围很广,我们预计其标签分布能够代表现实中出现的写作错误。然后,我们用一个有标签损坏模型来合成源句。

使用有标签损坏模型生成合成数据。在合成的 GEC 训练语料库中,干净的 C4 句子(绿色)与损坏的句子(红色)配对。遵循开发集(条形图)中错误类型的频率,使用有标签损坏模型生成损坏的句子

C4 语料库

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

结果

在我们的实验中,有标签损坏模型在两个标准开发集(CoNLL-13 和 BEA-dev)上表现优于无标签损坏模型,比后者高出三个 F0.5-点(GEC 研究中的一个标准指标,结合了精确率和召回率 (Precision and recall),更注重精确率),并在两个广泛使用的学术测试集(CoNLL-14 和 BEA-test)上体现了最先进的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

标准指标

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外,使用有标签损坏模型不仅能在标准的 GEC 测试集上获得收益,还能够让 GEC 系统适应用户的语言水平。这一点会十分有用,原因之一是英语母语写作者的错误标签分布往往与非英语母语写作者的分布有很大不同。例如,英语母语者通常会犯更多标点符号和拼写错误,而限定词错误(例如缺少或多加冠词,如 “a”、“an” 或 “the”)在非英语母语写作者的文本中更为常见。

结论

众所周知,神经序列模型对数据的需求非常大,但用于语法错误纠正的注释训练数据却很少。新的 C4_200M 语料库是一个包含各种语法错误的合成数据集,用于预训练 GEC 系统时,它体现出了最先进的性能。通过发布该数据集,我们希望为 GEC 研究人员提供宝贵的资源来训练强大的基线系统。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7002

    浏览量

    88936
  • 模型
    +关注

    关注

    1

    文章

    3226

    浏览量

    48804
收藏 人收藏

    评论

    相关推荐

    SSM开发中的常见问题及解决方案

    : 配置文件存在错误,如语法错误、路径错误或格式错误,导致软件系统无法正常运行。 解决方案 : 仔细检查配置文件的语法、路径和格式,确保其
    的头像 发表于 12-17 09:16 212次阅读

    电子电器气密性检测仪使用方法:操作中的常见错误纠正

    电子电器气密性检测仪是确保产品质量的关键设备,但在使用过程中,操作人员常犯一些错误,导致测试结果不准确或仪器损坏。以下是一些常见的操作错误及其纠正方法,旨在帮助操作人员正确使用气密性检测仪。常见
    的头像 发表于 11-29 11:20 130次阅读
    电子电器气密性检测仪使用方法:操作中的常见<b class='flag-5'>错误</b>与<b class='flag-5'>纠正</b>

    LLM在数据分析中的作用

    分析的游戏规则。 1. 数据预处理 数据预处理是数据分析的第一步,也是至关重要的一步。LLM在这一阶段可以发挥重要作用。 文本清洗 :LLM可以帮助识别和纠正文本数据中的拼写
    的头像 发表于 11-19 15:35 246次阅读

    SQL错误代码及解决方案

    在SQL数据库开发和管理中,常见的错误代码及其解决方案可以归纳如下: 一、语法错误(Syntax Errors) 错误代码 :无特定代码,但通常会在
    的头像 发表于 11-19 10:21 1288次阅读

    SUMIF函数常见错误及解决方案

    SUMIF函数是Excel中一个非常实用的函数,用于根据给定条件对数据进行求和。然而,在使用过程中,用户可能会遇到一些常见错误。 1. 错误:范围不正确 错误描述: 用户可能没有正确设
    的头像 发表于 11-11 09:10 999次阅读

    抗金属RFID标签如何提升资产管理效率

    抗金属RFID标签解决金属环境下RFID信号干扰问题,提升资产管理效率,实现快速盘点和位置跟踪,耐用性强,适合恶劣环境,助力企业数字化转型,实现资产全生命周期管理。
    的头像 发表于 09-14 16:32 282次阅读

    TINA-TI导入spice模型失败,提示语法元素错误是哪里出了问题?

    在使用TINA-TI 导入器件的Spice模型时,提示错误语法元素错误,不能导入器件,其spice内容如下:烦请知道,非常感谢! * DRB501VM-40 D model * PKG: UMD2
    发表于 08-09 07:51

    请问OPA855在ads里如何仿真?

    我按照ads导入Netlist的方法导入了OPA855的PSpice模型,但是运行仿真提示语法错误,请问怎么解决?
    发表于 08-05 07:56

    如何在esp-idf的开发环境中编译外部应用工程?

    ,所以有什么办法能让esp-idf的Makefile在make时调用外部工程的Makefile吗? 我尝试了在esp-idf根目录下的Makefile的最后添加外部工程Makefile的内容,但在编译时,外部工程(故意有语法错误) 感觉并没有被编译(没有报语法错误)。
    发表于 06-21 10:42

    基于纠正措施系统(FRACAS)的关键技术

    故障报告,分析和纠正措施系统是一种系统的方法,用于从一个或多个来源收集失效数据,针对根本原因对数据进行汇编和分析以及识别纠正措施。
    的头像 发表于 02-20 10:34 1554次阅读

    关于电流提升器和电压提升器的分析?

    请问我关于电流提升器和电压提升器的计算是否正确?这两个电路是怎么分析的? 电流提升器由虚短虚断,Uo=RfI,Ⅰ是输入端电流源电流,但是电流提升
    发表于 01-11 23:57

    程序运行后为什么没有结果

    是最常见的问题之一。可能存在拼写错误语法错误、缺少分号等问题,这些错误会导致程序无法正常运行。此时,可以使用调试工具(如IDE中的调试器)来逐行检查代码,找出错误所在,并进行修正。
    的头像 发表于 01-09 11:00 3376次阅读

    如何纠正三相电源相序

    如何纠正三相电源相序    纠正三相电源相序错误是电气工程中一个非常重要的任务。相序错误可能会导致电气设备损坏、功率因数下降、电路故障等严重后果。因此,我们需要在实际工作中及时发现和
    的头像 发表于 01-04 14:30 6073次阅读

    新讯发机器视觉检测解决方案:标签正反检测

    正确的标签方向对于准确传达物品的信息至关重要,如果标签错误放置在箱体上,那么可能导致错误的派送、延误或是丢失物品,对物流造成直接的影响;对于仓库而言,如果
    的头像 发表于 01-04 13:29 488次阅读
    新讯发机器视觉检测解决方案:<b class='flag-5'>标签</b>正反检测

    Shell脚本检查工具ShellCheck介绍

    ShellCheck是一个用于bash/sh shell脚本的静态分析工具,可以辅助检查脚本语法错误,给出建议增强脚本健壮性。
    的头像 发表于 12-27 13:43 2096次阅读
    Shell脚本检查工具ShellCheck介绍