0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将线性Transformer作为快速权重系统进行分析和改进

智能感知与物联网技术研究所 来源:通信信号处理研究所 作者:通信信号处理研究 2021-03-31 15:10 次阅读

Transformer 在深度学习中占据主导地位,但二次存储和计算需求使得 Transformer 的训练成本很高,而且很难使用。许多研究都尝试线性化核心模块:以 Performer 为例,使用带核的注意力机制。然而,这种方法还存在很多缺点,例如它们依赖于随机特征。 本文中,来自瑞士人工智能实验室(IDSIA)、亚琛工业大学的研究者建立起了线性(核)注意力与 90 年代深度学习之父 Jürgen Schmidhuber 推广的更古老的快速权重存储系统之间的内在联系,不仅指出了这些算法的基本局限性,还提出了新的更新规则和新的核来解决这些问题。在关键的综合实验和实际任务中,所得到的模型优于 Performers

9f348e0a-8d23-11eb-8b86-12bb97331649.png

论文链接:https://arxiv.org/abs/2102.11174

代码地址:https://github.com/ischlag/fast-weight-transformers

具体而言,该研究推测线性化的 softmax 注意力变量存在存储容量限制。在有限存储的情况下,快速权重存储模型的一个理想行为是操纵存储的内容并与之动态交互。 受过去对快速权重研究的启发,研究者建议用产生这种行为的替代规则替换更新规则。此外,该研究还提出了一个新的核函数来线性化注意力,平衡简单性和有效性。他们进行了大量的实验,实验内容包括合成检索问题、标准机器翻译以及语言建模。实验结果证明了该研究方法的益处。 将线性 Transformer 作为快速权重系统进行分析和改进 将线性 Transformer 变量视为快速权重系统,研究者给出了两个见解:作为关联存储容量的限制;无法编辑以前存储的关联内容。 容量限制 不断地将新的关联添加到有限大小的存储中,如下公式 17 所示,这样不可避免地会达到极限。在线性注意力中,信息存储在矩阵中,并使用矩阵乘法进行检索(如下公式 19)。因此,为了防止关联在检索时相互干扰,各个键(keys)需要正交。否则,点积将处理多个键并返回值的线性组合。对于嵌入在 d_dot 空间中的键,则不能有多余 d_dot 正交向量。

9fba1f8e-8d23-11eb-8b86-12bb97331649.png

也就是说,存储多个 d_dot 关联将导致检索误差。在线性 Transformer 中,当序列长度大于 d_dot 时,模型可能处于这样一种容量过剩状态。 改进与更新 受快速权重存储研究(Schlag 等人,2021 年)的启发,研究者提出了以下存储更新规则。 给定新的输入键 - 值对 (k^ (i) , v ^(i) ),模型首先访问存储的当前状态 W^(i−1),并检索当前与键 k^(i) 配对的值a020773e-8d23-11eb-8b86-12bb97331649.png。然后,该模型存储检索值a020773e-8d23-11eb-8b86-12bb97331649.png和输入 v^(i) 的凸组合a08e2130-8d23-11eb-8b86-12bb97331649.png,使用插值权重 0≤β^(i)≤1 的输入 v ^(i) 也由该模型生成。因此,该模型按顺序将输入序列a0ee1c16-8d23-11eb-8b86-12bb97331649.png转化为输出序列a14a9af4-8d23-11eb-8b86-12bb97331649.png,如下所示:  

a171de98-8d23-11eb-8b86-12bb97331649.png

归一化:在以上等式中,检索的值没有应用归一化。通过推导可以得到一个简单的归一化,即通过引入累加器(accumulator):

a1b366ce-8d23-11eb-8b86-12bb97331649.png

将公式 20、25 分别替换为:

a20e70aa-8d23-11eb-8b86-12bb97331649.png

然而,这种方法也有缺陷。首先,公式 26 中正值的累积总是随着步数的增加而增加,并且可能导致不稳定;其次,特别是对于该研究提出的更新规则,这种归一化不足以平衡公式 23 中写入和删除运算之间的权重(参见附录 A.2 中的推导)。 在这里,研究者提出了一种基于简单归一化的更好方法,将有效值和查询向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,对于查询:

a249b1ba-8d23-11eb-8b86-12bb97331649.png

线性注意力函数Katharopoulos 线性注意力 Katharopoulos 等人提出使用简单的逐元素 ELU + 1 函数(Clevert 等人, 2016):

a2748a84-8d23-11eb-8b86-12bb97331649.png

选择 ELU 而不是 ReLU 的动机是因为负数部分的非零梯度。重要的是,作为一个简单的函数,这个Φ函数保留了输入键向量(d_key=d_dot)的维数,而不需要修改第 4.1 节中讨论的存储容量。 DPFP 前面两小节强调了现有Φ函数的次优性。采样会给 FAVOR + 增加额外的复杂度,而线性 Transformer 缺乏投影点积维数的能力。因此,研究者提出了一种称为确定性无参数投影(deterministic parameter-free projection, DPFP) 的替代方法。它是确定性的,并像线性 Transformer 一样易于计算,同时增加点积维数,而不需要 FAVOR + 的随机特性。 下图中四维空间的元素被显示为四个彩色表面的 z 分量,以及 2d 平面中的每个向量如何在 4d 空间中具有单个非零分量,并将输入空间平均分割为在投影空间中正交的四个区域。

实验 该研究从三个方面进行了实验:合成检索问题、机器翻译和语言模型。 合成检索问题 所有模型都以最小批次 32 进行训练,直到评估损失降到 0.001 以下,或者进行了 1000 训练步。下图 2 展示了模型的最佳验证集性能以及对不同 S 的显示。唯一键的数量初始值 S=20,然后每次递增 20,直到 S=600 为止。实验对以下模型进行对比:Softmax、线性注意力、具有 64、128 和 512 个随机特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。

a2e099a4-8d23-11eb-8b86-12bb97331649.png

下图 3 展示了学习曲线。实验结果表明,该研究提出的更新规则优于其他变体。正如预期的那样,基线总和更新规则失败。

a311ff9e-8d23-11eb-8b86-12bb97331649.png

机器翻译 下表 1 显示了 BLEU 得分结果。当样本数 m 足够大时(当 d_dot=512,m=256),Performer 与基础 Transformer 性能相当。实际上,当 d_key=64 时,m 的推荐值是 d_dot log(d_dot)=266。当 d_dot 相对较小时,该研究的 DPFP 模型优于线性 Transformer 和 Performer;在简单性和性能之间提供了一个很好的折衷。

a3233192-8d23-11eb-8b86-12bb97331649.png

语言模型 该研究使用标准 WikiText-103(Merity 等,2017)数据集进行实验。WikiText-103 数据集由维基百科的长文组成;训练集包含大约 28K 篇文章、总共 103M 个单词。这将产生约 3600 个单词的上下文文本块。验证集和测试集也包含类似的长依赖关系,分别有 218K 和 246K 个运行单词,对应 60 篇文章,词汇量约为 268K 个单词。下表 2 展示了在该研究更新规则下,WikiText-103 语言模型的困惑度结果。

a363af9c-8d23-11eb-8b86-12bb97331649.png

在下表 3 中,使用该研究更新规则下的 Transformer(medium 配置),在 WikiText-103 语言模型的困惑度结果。

a3a4d38c-8d23-11eb-8b86-12bb97331649.png

在下表 4 中,WikiText-103 语言模型在没有截断上下文的情况下训练和评估模型的困惑度,这与上表 2 中上下文窗口受到限制的情况相反。medium 配置既不用于位置编码,也不用于注意力标准化。

a4065152-8d23-11eb-8b86-12bb97331649.png

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46820

    浏览量

    237457
  • 深度学习
    +关注

    关注

    73

    文章

    5491

    浏览量

    120958
  • Transformer
    +关注

    关注

    0

    文章

    141

    浏览量

    5980

原文标题:LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Transformer模型的具体应用

    如果想在 AI 领域引领一轮新浪潮,就需要使用到 Transformer
    的头像 发表于 11-20 09:28 190次阅读
    <b class='flag-5'>Transformer</b>模型的具体应用

    Transformer模型能够做什么

    尽管名为 Transformer,但它们不是电视银幕上的变形金刚,也不是电线杆上垃圾桶大小的变压器。
    的头像 发表于 11-20 09:27 181次阅读
    <b class='flag-5'>Transformer</b>模型能够做什么

    USB Type-C系统中TPS25947和LM73100的快速角色交换、线性或运算

    电子发烧友网站提供《USB Type-C系统中TPS25947和LM73100的快速角色交换、线性或运算.pdf》资料免费下载
    发表于 09-25 11:03 0次下载
    USB Type-C<b class='flag-5'>系统</b>中TPS25947和LM73100的<b class='flag-5'>快速</b>角色交换、<b class='flag-5'>线性</b>或运算

    数学建模(1)--层次分析

    分析系统中各因素之间的关系,建立系统的递阶层次结构。 权重表格 指标权重 苏杭 北戴河 桂林 景色 花费 居住
    发表于 09-06 10:39

    线性定常系统和时变系统的概念、特点及判断方法

    控制系统的设计和分析至关重要。 第一部分:线性系统 1.1 线性系统的定义 线性系统是指满足线性
    的头像 发表于 07-29 10:26 2396次阅读

    Transformer能代替图神经网络吗

    Transformer作为一种在处理序列数据方面表现出色的深度学习模型,自其提出以来,已经在自然语言处理(NLP)、时间序列分析等领域取得了显著的成果。然而,关于Transformer
    的头像 发表于 07-12 14:07 373次阅读

    Transformer语言模型简介与实现过程

    任务,随后迅速扩展到其他NLP任务中,如文本生成、语言理解、问答系统等。本文详细介绍Transformer语言模型的原理、特点、优势以及实现过程。
    的头像 发表于 07-10 11:48 1280次阅读

    深度学习中的模型权重

    在深度学习这一充满无限可能性的领域中,模型权重(Weights)作为其核心组成部分,扮演着至关重要的角色。它们不仅是模型学习的基石,更是模型智能的源泉。本文将从模型权重的定义、作用、优化、管理以及应用等多个方面,深入探讨深度学习
    的头像 发表于 07-04 11:49 912次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文深入解读如何使用PyTorch框架搭建Transformer模型,包括模型的结构、训
    的头像 发表于 07-02 11:41 1456次阅读

    为什么要进行调制?常见的线性调制方式有哪些?

    线性调制和非线性调制是在通信系统中用于原始信号转换为调制信号的两种不同方法。
    发表于 02-05 10:43 4696次阅读
    为什么要<b class='flag-5'>进行</b>调制?常见的<b class='flag-5'>线性</b>调制方式有哪些?

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质, Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 723次阅读
    基于<b class='flag-5'>Transformer</b>的多模态BEV融合方案

    UPS电源蓄电池快速充电的改进方法

    充电速度慢、效率低等问题。因此,我们需要进行改进,以实现UPS电源蓄电池的快速充电。本文详细探讨一些可以采取的改进方法。 首先,我们可以考
    的头像 发表于 01-10 16:50 795次阅读

    Spring Boot和飞腾派融合构建的农业物联网系统-改进自适应加权融合算法

    规则为:传感器的方差越小,分得的权值越大。X为融合后最优输出结果。 其中输出结果x与各传感器和传感器权重 wi 满足如下关系。 根据上式中条件构造拉格朗日函数最终可得 三、实验分析
    发表于 01-06 12:18

    降低Transformer复杂度O(N^2)的方法汇总

    首先来详细说明为什么Transformer的计算复杂度是 。Transformer中标准的Attention称为Softmax Attention。令 为长度为 的序列, 其维度为 , 。 可看作Softmax Attenti
    的头像 发表于 12-04 15:31 1070次阅读
    降低<b class='flag-5'>Transformer</b>复杂度O(N^2)的方法汇总

    光纤传输性能分析:非线性噪声来源简述

    光纤传输性能分析中,应该先确定非线性噪声来源,这是一个基础问题。非线性噪声来源都相对比较复杂,其计算更比较复杂,由于系统的复杂性,一种计算可能只能实用于有限场景,但是不能说该计算是错误
    的头像 发表于 11-22 10:12 1833次阅读
    光纤传输性能<b class='flag-5'>分析</b>:非<b class='flag-5'>线性</b>噪声来源简述