基于对抗自注意力机制的预训练语言模型-电子发烧友网

Introduction

本文提出了 Adversarial Self-Attention 机制（ASA），利用对抗训练重构 Transformer 的注意力，使模型在被污染的模型结构中得到训练。尝试解决的问题：

大量的证据表明，自注意力可以从 allowing bias 中获益，allowing bias 可以将一定程度的先验（如 masking，分布的平滑）加入原始的注意力结构中。这些先验知识能够让模型从较小的语料中学习有用的知识。但是这些先验知识一般是任务特定的知识，使得模型很难扩展到丰富的任务上。

adversarial training 通过给输入内容添加扰动来提升模型的鲁棒性。作者发现仅仅给 input embedding 添加扰动很难 confuse 到 attention maps. 模型的注意在扰动前后没有发生变化。

为了解决上述问题，作者提出了 ASA，具有以下的优势：

最大化 empirical training risk，在自动化构建先验知识的过程学习得到biased（or adversarial）的结构。

adversial 结构是由输入数据学到，使得 ASA 区别于传统的对抗训练或自注意力的变体。

使用梯度反转层来将 model 和 adversary 结合为整体。

ASA 天然具有可解释性。

Preliminary

表示输入的特征，在传统的对抗训练中，通常是 token 序列或者是 token 的 embedding，表示 ground truth. 对于由参数化的模型，模型的预测结果可以表示为。

2.1 Adversarial training

对抗训练的目的是旨在通过推近经过扰动的模型预测和目标分布之间的距离来提升模型的鲁棒性：

其中代表经过对抗扰动扰动后的模型预测，表示模型的目标分布。对抗扰动通过最大化 empirical training risk 获得：

其中是对做出的约束，希望在较小的情况下给模型造成较大的扰动。上述的两个表示展示的就是对抗的过程。

2.2General Self-Attention

定义自注意力的表达式为：

在最普通的自注意力机制中代表全等矩阵，而之前的研究中，代表的是用来平滑注意力结构的输出分布的一定程度的先验知识。作者在本文将定义为元素为的 binary 矩阵。

Adversarial Self-Attention Mechanism

3.1 Optimization

ASA 的目的是掩盖模型中最脆弱的注意力单元。这些最脆弱的单元取决于模型的输入，因此对抗可以表示为由输入学习到的“meta-knowledge”：，ASA 注意力可以表示为：

与对抗训练类似，模型用来最小化如下的 divergence：

通过最大化 empirical risk 估计得到：

其中表示的是的决策边界，用来防止 ASA 损害模型的训练。

考虑到以 attention mask 的形式存在，因此更适合通过约束 masked units 的比例来约束。由于很难测量。的具体数值，因此将 hard constraint 转化为具有惩罚的 unconstraint：

其中 t 用来控制对抗的程度。

3.2 Implementation

作者提出了 ASA 的简单且快速的实现。

对于第自注意力层，可以由输入的隐层状态获得。具体而言，使用线性层将隐层状态转化为以及，通过点乘获得矩阵，再通过重参数化技巧将矩阵 binary 化。由于对抗训练通常包括 inner maximization 以及 outer minimization 两个目标，因此至少需要两次 backward 过程。因此为了加速训练，作者采用了 Gradient Reversal Layer（GRL）将两个过程合并。

3.3 Training

训练目标如下所示：

表示 task- specific 损失，表示加上 ASA 对抗后的损失，表示对于对于的约束。

Experiments

4.1Result

从上表可以看出，在微调方面，ASA 支持的模型始终在很大程度上超过了原始的BERT 和 RoBERTa. 可以看到，ASA 在小规模数据集比如说 STS-B，DREAM 上表现优异（一般认为这些小规模数据集上更容易过拟合）同时在更大规模的数据集上如 MNLI，QNLI 以及 QQP 上仍然有较好的提升，说明了 ASA 在提升模型泛化能力的同时能提升模型的语言表示能力。如下表所示，ASA 在提升模型鲁棒性上具有较大的作用。

4.2 分析实验

1. VS. Naive smoothing 将 ASA 与其他注意力平滑方式进行比较。

2. VS. Adversial training 将 ASA 与其他对抗训练方式进行比较

4.3Visualization

1. Why ASA improves generalization 对抗能够减弱关键词的注意力而让非关键词接受更多的注意力。ASA 阻止了模型的懒惰预测，但敦促它从被污染的线索中学习，从而提高了泛化能力。

2. Bottom layers are more vulnerable 可以看到 masking 占比随着层数由底层到高层逐渐降低，更高的 masking 占比意味着层的脆弱性更高。

Conclusion

本文提出了 Adversarial Self-Attention mechanism（ASA）来提高预训练语言模型的泛化性和鲁棒性。大量实验表明本文提出的方法能够在预训练和微调阶段提升模型的鲁棒性。

·审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动化

自动化

+关注

关注
29

文章
5509

浏览量
79081
语言模型

语言模型

+关注

关注
0

文章
504

浏览量
10244

原文标题：ICLR2022 | 基于对抗自注意力机制的预训练语言模型

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

什么是LLM？LLM在自然语言处理中的应用

所未有的精度和效率处理和生成自然语言。 LLM的基本原理 LLM基于深度学习技术，尤其是变换器（Transformer）架构。变换器模型因其自注意力（Self-Attention）

发表于 11-19 15:32 •277次阅读

2024 年 19 种最佳大型语言模型

，当时一篇题为“通过联合学习对齐和翻译的神经机器翻译”的研究论文中引入了注意力机制（一种旨在模仿人类认知注意力的机器学习技术）。2017年，另一篇论文“注意力就是你

发表于 08-30 12:56 •477次阅读

2024 年 19 种最佳大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

【《大语言模型应用指南》阅读体验】+ 基础知识学习

并捕捉长距离依赖关系的神经网络结构。Transformer通过编码器（Encoder）和解码器（Decoder）两部分实现语言的编码和解码。 注意力机制：Transformer中的注意力

发表于 08-02 11:03

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •381次阅读

llm模型有哪些格式

：基于Transformer的模型 Transformer是一种基于自注意力机制的模型，广泛应用于NLP领域。基于Transformer的

发表于 07-09 09:59 •543次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得到了广泛应用。

发表于 07-03 18:20 •2323次阅读

【大规模语言模型：从理论到实践】- 阅读体验

再次感谢电子发烧友提供的书籍试读机会。今天来分享下我在学习大模型训练中 注意力机制的心得体会。虽然注意力

发表于 06-07 14:44

大语言模型：原理与工程时间+小白初识大语言模型

种语言模型进行预训练，此处预训练为自然语言处理领域的

发表于 05-12 23:57

【大语言模型：原理与工程实践】大语言模型的应用

。关于大语言模型是否具备与人类“系统2”相似的能力，存在广泛的争议。然而，随着模型参数量的增加和大规模预训练的实施，大

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

模型仍以Transformer为基础进行训练。Transformer是一种基于自注意力机制的编码器-解码器结构，其核心由编码器和解码器组成，

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

其预训练和微调，直到模型的部署和性能评估。以下是对这些技术的综述：模型架构: LLMs通常采用深层的神经网络架构，最常见的是Transformer网络，它包含多个

发表于 05-05 10:56

【大语言模型：原理与工程实践】揭开大语言模型的面纱

Transformer架构，利用自注意力机制对文本进行编码，通过预训练、有监督微调和强化学习等阶段，不断提升性能，展现出强大的

发表于 05-04 23:55

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

近期的大语言模型（LLM）在自然语言理解和生成上展现出了接近人类的强大能力，远远优于先前的BERT等预训练

发表于 01-04 14:06 •425次阅读

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型

发表于 12-04 15:51 •743次阅读

搜索历史

基于对抗自注意力机制的预训练语言模型

评论

什么是LLM？LLM在自然语言处理中的应用

2024 年 19 种最佳大型语言模型

【《大语言模型应用指南》阅读体验】+ 基础知识学习

大语言模型的预训练

llm模型有哪些格式

预训练模型的基本原理和应用

【大规模语言模型：从理论到实践】- 阅读体验

大语言模型：原理与工程时间+小白初识大语言模型

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】核心技术综述

【大语言模型：原理与工程实践】揭开大语言模型的面纱

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock