0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在风格迁移中如何进行数据增强

深度学习自然语言处理 来源:深度学习自然语言处理 作者:丁磊 2021-01-13 09:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这是一篇关于风格迁移中如何进行数据增强的论文。在introduction部分,informal-->formal 的风格迁移问题,最大的障碍是训练数据的不足。为了解决此问题,本篇论文提出三种数据增强的方法来获得有用的语句对,分别为

back translation (BT)

我们使用原始语料库训练一个seq2seq模型。其中将formal语句作为模型的输入,让seq2seq模型有能力输出对应的informal句子。则 模型输入的formal语句和输出的informal语句就构成了一个新的语句对。

formality discrimination (F-Dis)

F-Dis方法使用机器翻译模型,将一个informal句子重写为formal句子。首先使用Google翻译API 将这些informal语句翻译成 其他语种(比如法语),然后又翻译回英语。如下图所示:

831f1182-549c-11eb-8b86-12bb97331649.jpg

其中,informal语句可以从网上论坛上收集得到。

表示收集到的第i条句子(informal), 是最后翻译回的句子(formal), 二者构成了一个新的语句对。

本方法同时使用CNN构建了一个“格式判别器”:用来给一个句子的“正规”程度 打分。就是上图中右边括号内的小数。最终选出的新数据集要求如下:

837b0564-549c-11eb-8b86-12bb97331649.png

其中表示句子的“正规”程度, 是阈值

multi-task transfer (M-Task)

我们观察到,formal语句通常语法正确,而informal语句的语法经常出错。

前人研究表明,对FST的输出再使用一个语法错误纠正模型( grammatical error correction model,GEC)可以提高模型效果。受此启发,本论文直接使用GEC的训练数据作为增强的新数据集。如下图

83e7497c-549c-11eb-8b86-12bb97331649.png

模型训练

上面提到的seq2seq模型为Transformer (base)。

本论文首先使用增强的新数据用于 预训练,然后使用原始语料数据做微调,将这称为pre-training & finetuning (PT&FT)方法。下面结果证明了PT&FT的效果优于ST方法。ST是把增强数据和原数据一起训练。

843ca7b4-549c-11eb-8b86-12bb97331649.jpg

下图展现了三种数据增强方法的效果:

84b0048e-549c-11eb-8b86-12bb97331649.jpg

下图展现了我们的方法与前人模型的比较结果:

84cef614-549c-11eb-8b86-12bb97331649.jpg

责任编辑:xj

原文标题:【ACL2020】关于正式风格迁移的数据增强方法

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7349

    浏览量

    95028
  • 机器学习
    +关注

    关注

    67

    文章

    8566

    浏览量

    137234
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14726

原文标题:【ACL2020】关于正式风格迁移的数据增强方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    通过对‌数字音频信号进行数学运算和算法处理的高性能Audio DSP-DU562

    高性能 Audio DSP(音频数字信号处理器)的核心工作原理是通过对‌数字音频信号进行数学运算和算法处理‌,实现音质优化、噪声抑制、空间增强等效果。
    的头像 发表于 04-03 09:26 278次阅读
    通过对‌数字音频信号<b class='flag-5'>进行数</b>学运算和算法处理的高性能Audio DSP-DU562

    对于设备上的旧固件如何进行备份和恢复?

    对于设备上的旧固件,如何进行备份和恢复?
    发表于 12-12 08:23

    zfs数据恢复—ZFS存储迁移数据读不出数据怎么恢复数据

    管理员对一台存储设备内的文件进行迁移操作时,数据突然无法读取,管理界面出现报错。管理员查看数据时发现其中一个lun的数据丢失。
    的头像 发表于 12-09 14:10 350次阅读
    zfs<b class='flag-5'>数据</b>恢复—ZFS存储<b class='flag-5'>迁移数据</b>读不出<b class='flag-5'>数据</b>怎么恢复<b class='flag-5'>数据</b>?

    设备PLC没有以太网口如何进行数据采集

    工业实现数字化转型的过程,需要对各类自动化设备进行数据采集,其实质是实现对可编程逻辑控制器PLC的数据采集。但对很多老旧设备来说,通常只具备串口、只走TCP通信,甚至出现接口被占用
    的头像 发表于 12-03 10:57 676次阅读

    无质量损失的数据迁移:Nikon SLM Solutions信赖3Dfindit企业版

    制造和航空航天,其中整个涡轮机部件都可以通过3D打印实现。 使用3Dfindit企业版进行数据迁移引入新的PLM和CAD软件时,Nikon SLM Solutions曾面临着数据
    发表于 11-25 10:06

    蜂鸟E203怎样外部的摄像头进行数据传输?

    蜂鸟E203怎样外部的摄像头进行数据传输
    发表于 11-05 06:58

    温度循环测试后如何进行数据记录和分析?

    温度循环测试后的数据记录和分析是验证电能质量在线监测装置精度稳定性、功能完整性、硬件可靠性的核心环节,需围绕 “数据溯源可查、分析逻辑闭环、结论依据充分” 展开,结合测试标准(IEC
    的头像 发表于 09-26 14:22 680次阅读

    如何使用运行数据趋势分析验证装置准确性?

    负荷变化、设备启停、电网事件)高度匹配,且关键参数波动范围在合理区间内。以下是具体实施步骤、核心分析维度及判断标准: 一、前提:数据预处理 —— 确保分析基础有效 开展趋势分析前,需先对运行数据
    的头像 发表于 09-18 10:33 613次阅读
    如何使用运<b class='flag-5'>行数据</b>趋势分析验证装置准确性?

    工业数据智能制造的作用

    智能制造场景下,数据分散PLC、SCADA、MES、ERP等异构系统,格式不统一且难以互通。工业数据台通过标准化接口(如OPC UA
    的头像 发表于 08-26 14:29 897次阅读

    宏集方案 | 如何进行产线高阶能耗数据的计算和可视化?

    前言在当前经济下行时期,越来越来多企业开始对产线进行数字化转型,提高企业竞争力。产线数字化转型过程,产线高阶能耗数据的计算和可视化是比较重要的一环,今天小编就和大家分享如何对产线能
    的头像 发表于 08-08 18:28 640次阅读
    宏集方案 | 如<b class='flag-5'>何进行</b>产线高阶能耗<b class='flag-5'>数据</b>的计算和可视化?

    软国际上云迁移服务充分释放云计算价值

    在数字经济时代,企业上云已成为提升业务敏捷性、降低成本、增强安全性的关键路径。然而,上云迁移涉及复杂的业务系统、海量数据和高可用性要求,如何确保迁移过程高效、稳定、安全,成为企业面临的
    的头像 发表于 07-25 14:32 1094次阅读
    <b class='flag-5'>中</b>软国际上云<b class='flag-5'>迁移</b>服务充分释放云计算价值

    使用Cypress FX2 EZ USB进行数据采集应用,为什么采集到的数据不是连续的?

    我正在使用Cypress FX2 EZ USB进行数据采集应用。 我已经将其配置为 512 字节,BULK-IN 和 EP6 端点,AUTO IN。我 labview 开发了一个应用程序,用于
    发表于 05-28 07:38

    三菱CNC如何进行数据采集并对接到ERP系统

    需要高速、高精度加工的行业。同时越来越企业希望将CNC数据采集到ERP或MES系统。 对此,物通博联提供接入发那科、西门子、三菱、广数、哈斯、海德汉、凯恩帝、马扎克、兄弟等品牌的CNC数采网关,实时采集机床状态与加工参数并对
    的头像 发表于 05-14 11:16 1703次阅读
    三菱CNC如<b class='flag-5'>何进行数据</b>采集并对接到ERP系统

    KaihongOS应用开发,如何利用Socket进行数据传输

    Socket KaihongOS应用开发,可以利用Socket进行数据传输的能力,支持TCPSocket、UDPSocket、WebSocket和TLSSocket。详细的API接口文档请
    发表于 05-08 07:25

    工业设备运行数据采集管理平台是什么

    工业设备运行数据采集管理平台是一种用于集中采集、管理和分析工业设备运行数据的系统,广泛应用于制造业、能源、化工等多个领域。以下是其定义、功能及应用场景的详细说明: 定义 工业设备运行数据采集管理平台
    的头像 发表于 05-06 14:34 824次阅读