0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于长度感知注意机制的长度可控摘要模型

深度学习自然语言处理 来源:深度学习自然语言处理 2023-01-06 09:49 次阅读

以往的长度可控摘要模型大多在解码阶段控制长度,而编码阶段对指定的摘要长度不敏感。这样模型倾向于生成和训练数据一样长的摘要。在这篇论文中,作者提出了一种长度感知注意机制(LAAM,length-aware attention mechanism)来适应基于期望长度的编码。

本文的方法是在由原始训练数据构建的摘要长度平衡数据集上训练 LAAM,然后像往常一样进行微调。结果表明,这种方法可以有效地生成具有所需长度的高质量摘要,甚至是原始训练集中从未见过的短长度摘要。

e92b8d12-8d5b-11ed-bfe3-dac502259ad0.png

论文题目:Length Control in Abstractive Summarization by Pretraining Information Selection

收录会议:

ACL 2022

论文链接:

https://aclanthology.org/2022.acl-long.474.pdf

代码链接:

https://github.com/yizhuliu/lengthcontrol

背景

摘要任务目的是改写原文,在简明流畅的摘要中再现原文的语义和主题。为了在不同的移动设备或空间有限的网站上显示摘要,我们必须生成不同长度的摘要。

长度可控的摘要是一个多目标优化问题,包括:

在期望的长度内生成完整的摘要

以及根据期望的长度选择适当的信息

相关方法

现有的基于编解码器模型的长度可控摘要可分为两类:

解码时的早停

编码前的信息选择

解码过程中的早停方法关注何时输出 eos(end of sequence),也就是摘要的结束标志。有人设计了专门的方法。这个专门方法是通过在测试期间将期望长度的位置上的所有候选单词分配 −∞ 的分数来生成 eos。这个方法可以应用于任何 seq2seq 模型。然而,这些方法只是简单地为解码器增加了长度要求,而忽略了从源文档编码内容或信息选择也必须适应不同长度要求的问题。

基于信息选择的方法分为两阶段。一个突出的例子是 LPAS,在第一阶段,从源文档中提取最重要的l个标记作为所需长度的原型摘要,并在第二阶段通过双编码器对源文档和原型摘要进行编码。一方面,这种两阶段方法会在中间结果中引入噪声。另一方面,这些方法的第二阶段没有第一手的长度信息,这削弱了长度控制。

本文方法

在本文中,作者提出了LAAM(长度感知注意机制),它扩展了 Transformer seq2seq 模型,具有根据长度约束在上下文中选择信息的能力。

LAAM 重新 normalize 编码器和解码器之间的注意力,以增强指定长度范围内具有更高注意力分数的 token,帮助从源文档中选择长度感知信息。随着解码进行,增强 token 的数量将会逐步减少,直到 eos 获得最高的注意力分数,这有助于在指定长度上停止解码过程。

LAAM 可以被认为是上一节两类方法的混合版本。

同时作者观察到,在现有训练集中,不同长度的摘要数量有很大差异。为了平衡摘要在不同长度范围内的分布,本文提出了一种启发式方法:首先定义摘要长度范围,然后从原文中直接抽取不同长度的摘要,根据特定指标控制抽取摘要的相关度,从而创建长度平衡数据集(LBD,length-balanced dataset)。

在本文方法中,先从原始的摘要数据集创建一个 LBD。之后,在 LBD 上预训练LAAM,以增强 LAAM 在长度约束下的文本选择能力。最后,将预训练后的 LAAM 在原始数据集上微调,以学习将所选文本改写为不同长度的摘要。

当前训练数据集中没有短摘要,微调后的模型没有见过短摘要,所以如果用它生成短摘要的话算是 zero-shot。得益于 LDB 的预训练,本文的方法可以解决zero-shot情况下的长度控制问题。

本文的主要贡献:

提出了LAAM(长度感知注意机制)来生成具有所需长度的高质量摘要。

设计了一种启发式方法,从原始数据集中创建一个LBD(长度平衡数据集)。在 LBD 上对 LAAM 进行预训练后,LAAM 效果能有提升,并且可以有效解决 zero-shot 情况下的短摘要生成问题。

LAAM

e969c8de-8d5b-11ed-bfe3-dac502259ad0.png

上图是 Transformer 解码器。

左上方为源文档输入:,作为注意力的 Key。

最左侧为模型当前输出:,作为注意力的 Query,两者点乘得到注意力矩阵。 注意力矩阵分为两部分, 负责文本信息选择, 负责结束标志选择

注意力矩阵的第一行加粗了 Top3,第二行加粗了 Top2,第三行加粗了 Top1,对加粗的进行提权,本文通过这种方式向模型传递句子剩余预测长度信息。

也会进行提权,并且越接近指定长度,提权幅度越大,模型也就更容易预测出 eos。

提权后要进行一次归一化,不然和不为 1。

这就是本文提出的 LAAM 模型。

总结

本文方案的整体流程是:

用原始训练集生成 LBD(长度平衡数据集)

在 LBD 上预训练 LAAM 模型

在原始训练集上微调 LAAM 模型

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编解码器
    +关注

    关注

    0

    文章

    258

    浏览量

    24236
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24701

原文标题:ACL 2022 | 基于长度感知注意机制的长度可控摘要模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    石油钻杆的内外螺纹及长度如何测量?

    和尺寸变化设定,测量外螺纹部分接头的长度。内螺纹部分设置2组双测头和1只二维激光测量传感器,双测头测量钻杆接头外径尺寸,同时通过测头部分滑台的行走距离和尺寸变化设定,测量内螺纹部分接头的长度。二维激光
    发表于 12-05 13:54

    示波器小技能:TDR测量线缆长度

    今天用示波器给大家演示一下,如何测试线缆的长度。Chrent设备连接本次使用的实验器材:快速边沿脉冲发生器小板支持10纳秒或更小时基的示波器一台5V直流电源待测试电缆BNC转接头首先将设备和示波器
    的头像 发表于 11-21 01:04 239次阅读
    示波器小技能:TDR测量线缆<b class='flag-5'>长度</b>

    测长机在测量长度尺寸方面有哪些优势?

    测长机在测量长度尺寸方面具有以下优势:一、高精度1.分辨力高:测长机通常具有很高的分辨力,能够精确测量到非常小的长度变化。例如,一些高精度测长机的分辨力可以达到微米甚至纳米级别,能够满足对精密工件
    的头像 发表于 10-25 16:20 302次阅读
    测长机在测量<b class='flag-5'>长度</b>尺寸方面有哪些优势?

    CS1-U DC/AC5-240V磁性开关长度要求

    磁性开关的长度要求并非固定不变,而是需要根据具体的应用场景和安装环境进行灵活选择。在选择磁性开关时,除了考虑其长度外,还需要关注其技术参数、工作环境要求以及安装间距等因素,以确保其能够正常工作并满足实际需求。
    的头像 发表于 10-12 18:07 178次阅读

    hdmi线长度不能超过多少米

    HDMI线长度的限制主要与其版本和实际应用场景中的信号衰减有关。以下是对HDMI线长度限制的详细解释: HDMI 1.3版本: 最长长度:20米。这个版本的HDMI线主要适用于家庭或办公室环境,其外
    的头像 发表于 06-24 10:17 8426次阅读

    【大规模语言模型:从理论到实践】- 阅读体验

    注意机制的计算复杂度随着序列长度的增加而迅速增长,这可能会成为模型训练和推理时的瓶颈。 与计算效率类似,注意
    发表于 06-07 14:44

    hdmi线缆长度根据什么决定选择

    可以达到30米,这足以支持一个1080p的视频和一个8声道的音频信号。 然而,需要注意的是,对于4K分辨率的HDMI线缆,其长度应小于15米,以确保最佳的图像和音频质量。 在选择HDMI线缆时,除了考虑长度外,还需要
    的头像 发表于 06-06 11:44 2669次阅读

    如何利用实时示波器测量线缆长度

    Reflectometry, TDR)技术,还可以用于测量线缆长度。本文将详细介绍如何利用实时示波器结合TDR技术测量线缆长度的原理、步骤、注意事项以及应用实例。
    的头像 发表于 05-27 16:24 1381次阅读

    嵌入式中零长度数组基本操作方法

    C语言零长度数组,听起来可能有点奇怪,因为它没有分配内存空间,无法存储数据。但实际上,零长度数组在Linux内核中随处可见。 零长度数组的定义 首先,我们要明白什么是零长度数组。简单来
    的头像 发表于 05-11 08:49 941次阅读
    嵌入式中零<b class='flag-5'>长度</b>数组基本操作方法

    3芯M9接口的长度是多少

    德索工程师说道3芯M9接口的长度并不是一个固定值,它取决于具体的产品设计和制造标准。不同的厂家和不同的应用场景,可能会导致3芯M9接口的长度有所差异。因此,要准确回答这个问题,我们需要首先明确具体的产品和应用背景。
    的头像 发表于 04-19 15:05 326次阅读
    3芯M9接口的<b class='flag-5'>长度</b>是多少

    DMA搬运的数据长度超过65535怎么处理?

    我有个问题请问下。我现在使用定时器更新事件触发DMA,采集1次SPI数据,使用的是循环模式。但是我现在采集的数据长度需要超过了65535,现在应该怎么处理?DMA搬运的数据长度最多是65535
    发表于 03-29 08:57

    如何提高BLE_MeshLightingLPN的发送数据长度

    (GENERIC_ONOFF_SERVER_MODEL_ID,srcAddress ,GENERIC_ON_OFF_SET_UNACK,generic_Buff, 2,MOBLE_FALSE, MOBLE_FALSE); 数据长度小于等于4时可以发送成功,当发送大于4个字节时就会报错,发送失败! 目前设置都是官方例
    发表于 03-15 07:20

    你计算过车辆线束的最大绕线长度吗?

    线束越来越短,是新能源车的“大势所趋”。在线束长度不断缩短的背后,是汽车电子电气架构的演变与进化。
    发表于 03-08 09:38 444次阅读
    你计算过车辆线束的最大绕线<b class='flag-5'>长度</b>吗?

    导体的电阻与长度和横截面积的关系是什么

    电阻是导体对电流流动的阻碍程度的量度,它与导体的长度和横截面积有着密切的关系。在一个理想的导体中,电流的流动是由电子在电场中的漂移而形成的。而导体的长度和横截面积则直接影响了电子在导体中的漂移速率
    的头像 发表于 02-26 13:49 5523次阅读

    canfd通信tdcv实测值受总线长度影响吗

    canfd通信tdcv实测值受总线长度影响吗  当涉及到CAN FD通信和总线长度的讨论时,总线长度可以对实测值产生一定的影响。在本文中,我将详细讨论CAN FD通信和总线长度之间的关
    的头像 发表于 01-31 13:46 935次阅读