关于标签数据提升语法错误纠正效果-电子发烧友网

语法错误纠正（GEC）指的是试图对语法和其他类型的写作错误进行建模，并给出语法和拼写建议，从而改善文档、电子邮件、文章甚至非正式聊天中的书面输出质量。在过去 15 年里，GEC 的质量有了很大提高，其中很大一部分原因是它将问题重塑为一项“翻译”任务。例如，将这种方法引入 Google 文档后，用户采纳的语法纠正建议数量显著增加。

将问题重塑为一项“翻译”任务

https://aclanthology.org/P06-1032/

但是，GEC 模型面临的最大挑战之一是数据稀少。不同于其他语音识别（Speech recognition）和机器翻译（Machine translation）等自然语言处理（NLP）任务，即便是针对英语这样的高资源语言，GEC 可用的训练数据非常有限。对于这类问题，一个常见的补救措施是使用一系列技术来生成合成数据，其中包括启发式随机词或字符级的损坏，以及基于模型的方法。然而，这些方法往往是简化的，不能反映实际用户错误类型的真实分布。

在 EACL 第 16 届创新使用 NLP 构建教育应用研讨会上发表的《使用有标签损坏模型进行语法错误纠正的合成数据生成》（Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models）一文中，我们介绍了有标签损坏模型。这种方法受到机器翻译中流行的回译数据合成技术启发，能够精确控制合成数据的生成，确保产生与实践中错误分布更加一致的多样化输出。我们使用有标签损坏模型来生成一个新的数据集（包含 2 亿个句子）。目前这个数据集应发布，可供研究人员提供真实的 GEC 预训练数据。通过将新的数据集整合到训练流水线，我们能够显著改善 GEC 的基线。

使用有标签损坏模型进行语法错误纠正的合成数据生成

https://aclanthology.org/2021.bea-1.4/

回译

https://aclanthology.org/P16-1009/

数据集（包含 2 亿个句子）

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有标签损坏模型

将传统的损坏模型应用于 GEC，其背后的理念是，从一个语法正确的句子开始，然后通过添加错误“损坏”它。通过在现有 GEC 数据集中切换源句和目标句，可以轻松地训练出损坏模型，之前的研究已经表明，这种方法对生成改进的 GEC 数据集非常有效。

提供干净的输入句（绿色）后，传统损坏模型会生成一个不符合语法的句子（红色）

之前的研究

https://aclanthology.org/D19-1119.pdf

我们提出的有标签损坏模型建立在这一理念的基础之上，它将一个干净的句子作为输入，加上一个错误类型标签，描述所要重现的错误类型。然后，它为输入句生成一个包含指定错误类型的语法错误版本。与传统的损坏模型相比，为不同句子选择不同的错误类型增加了损坏的多样性。

有标签损坏模型会根据错误类型标签，为干净的输入句（绿色）生成损坏（红色）。限定词错误可能会导致丢失限定词 “a”，而名词屈折变化错误可能导致错误的复数形式 “sheeps”

为使用此模型生成数据，我们首先从 C4 语料库中随机选择了 2 亿个干净的句子，并为每个句子分配了一个错误类型标签，令其相对频率与小型开发集 BEA-dev 的错误类型标签分布相匹配。由于 BEA-dev 是一个精心制作的集合，涵盖各种英语水平，范围很广，我们预计其标签分布能够代表现实中出现的写作错误。然后，我们用一个有标签损坏模型来合成源句。

使用有标签损坏模型生成合成数据。在合成的 GEC 训练语料库中，干净的 C4 句子（绿色）与损坏的句子（红色）配对。遵循开发集（条形图）中错误类型的频率，使用有标签损坏模型生成损坏的句子

C4 语料库

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

结果

在我们的实验中，有标签损坏模型在两个标准开发集（CoNLL-13 和 BEA-dev）上表现优于无标签损坏模型，比后者高出三个 F0.5-点（GEC 研究中的一个标准指标，结合了精确率和召回率（Precision and recall），更注重精确率），并在两个广泛使用的学术测试集（CoNLL-14 和 BEA-test）上体现了最先进的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

标准指标

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外，使用有标签损坏模型不仅能在标准的 GEC 测试集上获得收益，还能够让 GEC 系统适应用户的语言水平。这一点会十分有用，原因之一是英语母语写作者的错误标签分布往往与非英语母语写作者的分布有很大不同。例如，英语母语者通常会犯更多标点符号和拼写错误，而限定词错误（例如缺少或多加冠词，如 “a”、“an” 或 “the”）在非英语母语写作者的文本中更为常见。

结论

众所周知，神经序列模型对数据的需求非常大，但用于语法错误纠正的注释训练数据却很少。新的 C4_200M 语料库是一个包含各种语法错误的合成数据集，用于预训练 GEC 系统时，它体现出了最先进的性能。通过发布该数据集，我们希望为 GEC 研究人员提供宝贵的资源来训练强大的基线系统。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7231

浏览量
90620
模型

模型

+关注

关注
1

文章
3449

浏览量
49712

使用s32ds软件时，无法生成是怎么回事？

使用s32ds软件时，无法生成，并显示以下错误消息。请帮忙。生成器：错误：错误：LinStackCfg.npf 行：5 “bus_clock” - 语法错误

发表于 04-04 08:04

云里物里ESL电子标签如何推动工业仓储智能化升级

ESL电子标签可联动货架警示灯，通过LED灯闪烁指引人员快速定位操作区域，电子墨水屏实时更新货物信息。货物的出入库操作完成后，工作人员通过PDA扫描条码或标签按键，可快速同步更新后台数据，减少人工录入

发表于 03-17 15:22 •299次阅读

常见xgboost错误及解决方案

的XGBoost错误及其解决方案： 1. 数据预处理错误错误：未对数据进行适当的预处理，如缺失值处理、特征编码、特征缩放等。解决方案

发表于 01-19 11:22 •1626次阅读

SSM开发中的常见问题及解决方案

：配置文件存在错误，如语法错误、路径错误或格式错误，导致软件系统无法正常运行。解决方案：仔细检查配置文件的语法、路径和格式，确保其

发表于 12-17 09:16 •958次阅读

电子电器气密性检测仪使用方法：操作中的常见错误与纠正

电子电器气密性检测仪是确保产品质量的关键设备，但在使用过程中，操作人员常犯一些错误，导致测试结果不准确或仪器损坏。以下是一些常见的操作错误及其纠正方法，旨在帮助操作人员正确使用气密性检测仪。常见

发表于 11-29 11:20 •434次阅读

电子电器气密性检测仪使用方法：操作中的常见<b class='flag-5'>错误</b>与<b class='flag-5'>纠正</b>

LLM在数据分析中的作用

分析的游戏规则。 1. 数据预处理数据预处理是数据分析的第一步，也是至关重要的一步。LLM在这一阶段可以发挥重要作用。文本清洗：LLM可以帮助识别和纠正文本数据中的拼写

发表于 11-19 15:35 •846次阅读

SQL错误代码及解决方案

在SQL数据库开发和管理中，常见的错误代码及其解决方案可以归纳如下：一、语法错误（Syntax Errors）错误代码：无特定代码，但通常会在

发表于 11-19 10:21 •5224次阅读

SUMIF函数常见错误及解决方案

SUMIF函数是Excel中一个非常实用的函数，用于根据给定条件对数据进行求和。然而，在使用过程中，用户可能会遇到一些常见错误。 1. 错误：范围不正确错误描述：用户可能没有正确设

发表于 11-11 09:10 •4765次阅读

抗金属RFID标签如何提升资产管理效率

抗金属RFID标签解决金属环境下RFID信号干扰问题，提升资产管理效率，实现快速盘点和位置跟踪，耐用性强，适合恶劣环境，助力企业数字化转型，实现资产全生命周期管理。

发表于 09-14 16:32 •461次阅读

服务器错误是怎么回事？常见错误原因及解决方法汇总

服务器错误是怎么回事？最常见的原因分有六个，分别是：硬件问题、软件问题、网络问题、资源耗尽、数据库、文件权限问题。可以根据以下具体错误原因进行辨别，并选择适合的解决方法。关于常见服务器

发表于 08-12 10:11 •1890次阅读

TINA-TI导入spice模型失败，提示语法元素错误是哪里出了问题？

在使用TINA-TI 导入器件的Spice模型时，提示错误语法元素错误，不能导入器件，其spice内容如下：烦请知道，非常感谢！ * DRB501VM-40 D model * PKG: UMD2

发表于 08-09 07:51

请问OPA855在ads里如何仿真？

我按照ads导入Netlist的方法导入了OPA855的PSpice模型，但是运行仿真提示语法错误，请问怎么解决？

发表于 08-05 07:56

如何在esp-idf的开发环境中编译外部应用工程？

，所以有什么办法能让esp-idf的Makefile在make时调用外部工程的Makefile吗？我尝试了在esp-idf根目录下的Makefile的最后添加外部工程Makefile的内容，但在编译时，外部工程（故意有语法错误）感觉并没有被编译（没有报语法错误）。

发表于 06-21 10:42

Aurix Development Studio来构建Autosar MCAL FW，构建\"IfxGtm_reg.h\" 时总是出错怎么解决？

我使用 Aurix Development Studio 来构建 Autosar MCAL FW，在构建\"IfxGtm_reg.h\" 时总是出错。 \"- 语法错误

发表于 05-29 07:34

HarmonyOS开发案例：【待办列表】

使用ArkTS声明式语法和基础组件，实现简易待办列表。效果为点击某一事项，替换标签图片、虚化文字。

发表于 05-06 15:22 •1301次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

关于标签数据提升语法错误纠正效果

评论

使用s32ds软件时，无法生成是怎么回事？

云里物里ESL电子标签如何推动工业仓储智能化升级

常见xgboost错误及解决方案

SSM开发中的常见问题及解决方案

电子电器气密性检测仪使用方法：操作中的常见错误与纠正

LLM在数据分析中的作用

SQL错误代码及解决方案

SUMIF函数常见错误及解决方案

抗金属RFID标签如何提升资产管理效率

服务器错误是怎么回事？常见错误原因及解决方法汇总

TINA-TI导入spice模型失败，提示语法元素错误是哪里出了问题？

请问OPA855在ads里如何仿真？

如何在esp-idf的开发环境中编译外部应用工程？

Aurix Development Studio来构建Autosar MCAL FW，构建\"IfxGtm_reg.h\" 时总是出错怎么解决？

HarmonyOS开发案例：【待办列表】