0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于长度感知注意机制的长度可控摘要模型

深度学习自然语言处理 来源:深度学习自然语言处理 2023-01-06 09:49 次阅读

以往的长度可控摘要模型大多在解码阶段控制长度,而编码阶段对指定的摘要长度不敏感。这样模型倾向于生成和训练数据一样长的摘要。在这篇论文中,作者提出了一种长度感知注意机制(LAAM,length-aware attention mechanism)来适应基于期望长度的编码。

本文的方法是在由原始训练数据构建的摘要长度平衡数据集上训练 LAAM,然后像往常一样进行微调。结果表明,这种方法可以有效地生成具有所需长度的高质量摘要,甚至是原始训练集中从未见过的短长度摘要。

e92b8d12-8d5b-11ed-bfe3-dac502259ad0.png

论文题目:Length Control in Abstractive Summarization by Pretraining Information Selection

收录会议:

ACL 2022

论文链接:

https://aclanthology.org/2022.acl-long.474.pdf

代码链接:

https://github.com/yizhuliu/lengthcontrol

背景

摘要任务目的是改写原文,在简明流畅的摘要中再现原文的语义和主题。为了在不同的移动设备或空间有限的网站上显示摘要,我们必须生成不同长度的摘要。

长度可控的摘要是一个多目标优化问题,包括:

在期望的长度内生成完整的摘要

以及根据期望的长度选择适当的信息

相关方法

现有的基于编解码器模型的长度可控摘要可分为两类:

解码时的早停

编码前的信息选择

解码过程中的早停方法关注何时输出 eos(end of sequence),也就是摘要的结束标志。有人设计了专门的方法。这个专门方法是通过在测试期间将期望长度的位置上的所有候选单词分配 −∞ 的分数来生成 eos。这个方法可以应用于任何 seq2seq 模型。然而,这些方法只是简单地为解码器增加了长度要求,而忽略了从源文档编码内容或信息选择也必须适应不同长度要求的问题。

基于信息选择的方法分为两阶段。一个突出的例子是 LPAS,在第一阶段,从源文档中提取最重要的l个标记作为所需长度的原型摘要,并在第二阶段通过双编码器对源文档和原型摘要进行编码。一方面,这种两阶段方法会在中间结果中引入噪声。另一方面,这些方法的第二阶段没有第一手的长度信息,这削弱了长度控制。

本文方法

在本文中,作者提出了LAAM(长度感知注意机制),它扩展了 Transformer seq2seq 模型,具有根据长度约束在上下文中选择信息的能力。

LAAM 重新 normalize 编码器和解码器之间的注意力,以增强指定长度范围内具有更高注意力分数的 token,帮助从源文档中选择长度感知信息。随着解码进行,增强 token 的数量将会逐步减少,直到 eos 获得最高的注意力分数,这有助于在指定长度上停止解码过程。

LAAM 可以被认为是上一节两类方法的混合版本。

同时作者观察到,在现有训练集中,不同长度的摘要数量有很大差异。为了平衡摘要在不同长度范围内的分布,本文提出了一种启发式方法:首先定义摘要长度范围,然后从原文中直接抽取不同长度的摘要,根据特定指标控制抽取摘要的相关度,从而创建长度平衡数据集(LBD,length-balanced dataset)。

在本文方法中,先从原始的摘要数据集创建一个 LBD。之后,在 LBD 上预训练LAAM,以增强 LAAM 在长度约束下的文本选择能力。最后,将预训练后的 LAAM 在原始数据集上微调,以学习将所选文本改写为不同长度的摘要。

当前训练数据集中没有短摘要,微调后的模型没有见过短摘要,所以如果用它生成短摘要的话算是 zero-shot。得益于 LDB 的预训练,本文的方法可以解决zero-shot情况下的长度控制问题。

本文的主要贡献:

提出了LAAM(长度感知注意机制)来生成具有所需长度的高质量摘要。

设计了一种启发式方法,从原始数据集中创建一个LBD(长度平衡数据集)。在 LBD 上对 LAAM 进行预训练后,LAAM 效果能有提升,并且可以有效解决 zero-shot 情况下的短摘要生成问题。

LAAM

e969c8de-8d5b-11ed-bfe3-dac502259ad0.png

上图是 Transformer 解码器。

左上方为源文档输入:,作为注意力的 Key。

最左侧为模型当前输出:,作为注意力的 Query,两者点乘得到注意力矩阵。 注意力矩阵分为两部分, 负责文本信息选择, 负责结束标志选择

注意力矩阵的第一行加粗了 Top3,第二行加粗了 Top2,第三行加粗了 Top1,对加粗的进行提权,本文通过这种方式向模型传递句子剩余预测长度信息。

也会进行提权,并且越接近指定长度,提权幅度越大,模型也就更容易预测出 eos。

提权后要进行一次归一化,不然和不为 1。

这就是本文提出的 LAAM 模型。

总结

本文方案的整体流程是:

用原始训练集生成 LBD(长度平衡数据集)

在 LBD 上预训练 LAAM 模型

在原始训练集上微调 LAAM 模型

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编解码器
    +关注

    关注

    0

    文章

    234

    浏览量

    24135
  • 数据集
    +关注

    关注

    4

    文章

    1197

    浏览量

    24538

原文标题:ACL 2022 | 基于长度感知注意机制的长度可控摘要模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    hdmi线长度不能超过多少米

    HDMI线长度的限制主要与其版本和实际应用场景中的信号衰减有关。以下是对HDMI线长度限制的详细解释: HDMI 1.3版本: 最长长度:20米。这个版本的HDMI线主要适用于家庭或办公室环境,其外
    的头像 发表于 06-24 10:17 3851次阅读

    【大规模语言模型:从理论到实践】- 阅读体验

    注意机制的计算复杂度随着序列长度的增加而迅速增长,这可能会成为模型训练和推理时的瓶颈。 与计算效率类似,注意
    发表于 06-07 14:44

    hdmi线缆长度根据什么决定选择

    可以达到30米,这足以支持一个1080p的视频和一个8声道的音频信号。 然而,需要注意的是,对于4K分辨率的HDMI线缆,其长度应小于15米,以确保最佳的图像和音频质量。 在选择HDMI线缆时,除了考虑长度外,还需要
    的头像 发表于 06-06 11:44 1186次阅读

    如何利用实时示波器测量线缆长度

    Reflectometry, TDR)技术,还可以用于测量线缆长度。本文将详细介绍如何利用实时示波器结合TDR技术测量线缆长度的原理、步骤、注意事项以及应用实例。
    的头像 发表于 05-27 16:24 842次阅读

    导体的电阻与长度和横截面积的关系是什么

    电阻是导体对电流流动的阻碍程度的量度,它与导体的长度和横截面积有着密切的关系。在一个理想的导体中,电流的流动是由电子在电场中的漂移而形成的。而导体的长度和横截面积则直接影响了电子在导体中的漂移速率
    的头像 发表于 02-26 13:49 3619次阅读

    canfd通信tdcv实测值受总线长度影响吗

    canfd通信tdcv实测值受总线长度影响吗  当涉及到CAN FD通信和总线长度的讨论时,总线长度可以对实测值产生一定的影响。在本文中,我将详细讨论CAN FD通信和总线长度之间的关
    的头像 发表于 01-31 13:46 708次阅读

    python怎么控制输出长度

    在Python中,可以使用字符串的切片操作来控制输出的长度。你可以通过指定起止位置,截取字符串的一部分进行输出。 以下是一个使用切片操作来控制输出长度的例子: text = "这是一段需要详尽、详实
    的头像 发表于 11-22 10:43 1031次阅读

    oracle修改表字段长度语句

    Oracle 修改表字段长度可以通过使用 ALTER TABLE 语句来实现。在对表进行修改之前,我们需要先了解一些基本的概念。 表字段长度是指在数据库表中用来存储数据的列的最大容量。当我们需要存储
    的头像 发表于 11-21 11:34 1609次阅读

    市场上常见的测量长度的工业仪器

    在现代工业领域中,长度尺寸测量至关重要。无论是制造业、建筑业还是科学研究,准确测量长度都是保证质量和安全的基础。为满足多样化的测量需求,如今市场上测量长度的工业仪器有许多种类型,本文介绍几种常见
    发表于 11-07 09:18 0次下载

    为什么要限制变频器与电机之间电缆长度

    为什么要限制变频器与电机之间电缆长度? 限制变频器与电机之间电缆长度的原因是多方面的。在以下文章中,我将详尽、详实、细致地解释为什么限制电缆长度对于变频器和电机的正常运行至关重要。 首先,电缆
    的头像 发表于 11-06 11:32 1685次阅读

    如果变频器到电机的电缆长度超出变频器的标准电缆长度,对系统有什么影响?

    如果变频器到电机的电缆长度超出变频器的标准电缆长度,对系统有什么影响?需要怎么处理? 电缆是将变频器和电机连接起来的重要组成部分。标准电缆长度是根据变频器的设计和性能指标进行规定的,超出标准电缆
    的头像 发表于 11-06 11:32 2100次阅读

    变频器到电机的电缆长度应该怎么选配?

    变频器到电机的电缆长度应该怎么选配? 变频器到电机的电缆长度在选配过程中需要考虑多个因素,包括电缆材料、电缆截面积、电缆长度以及变频器和电机之间的距离。本文将详细介绍这些因素,并提供一些选择电缆
    的头像 发表于 11-06 11:27 1103次阅读

    全球首款支持 8K(8192)输入长度的开源向量模型发布

    在大模型时代,向量模型的重要性进一步增强。尤其是在检索增强生成(RAG)场景中,它成为了一个核心组件,用于解决大模型的上下文长度限制、幻觉问题和知识注入问题。
    的头像 发表于 11-02 14:53 706次阅读
    全球首款支持 8K(8192)输入<b class='flag-5'>长度</b>的开源向量<b class='flag-5'>模型</b>发布

    测量长度的工业仪器有哪些

    在现代工业领域中,长度尺寸测量至关重要。无论是制造业、建筑业还是科学研究,准确测量长度都是保证质量和安全的基础。为满足多样化的测量需求,如今市场上测量长度的工业仪器有许多种类型。其中光学测量仪
    发表于 10-11 15:08 0次下载

    C语言获取文件长度的两种方法

    C语言中没有直接获取文件长度的接口,但是我们可以使用标准库提供的函数来间接的获取文件长度。这里提供两种方法。
    的头像 发表于 10-10 16:15 1180次阅读
    C语言获取文件<b class='flag-5'>长度</b>的两种方法