0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简述位置编码在注意机制中的作用

深度学习自然语言处理 来源:DeepHub 作者:DeepHub 2021-06-16 17:19 次阅读

神经网络知识。

有一种叫做注意机制的东西,但是你不需要知道注意力具体实现。

RNN/LSTM的不足。

A. Vaswani等人的《Attention Is All You Need》被认为是解决了众所周知的LSTM/RNN体系结构在深度学习空间中的局限性的突破之一。本文介绍了transformers 在seq2seq任务中的应用。该论文巧妙地利用了 D.Bahdanau 等人通过联合学习对齐和翻译的神经机器翻译注意机制的使用。并且提供一些示例明确且详尽地解释了注意力机制的数学和应用。

在本文中,我将专注于注意力机制的位置编码部分及其数学。

假设您正在构建一个 seq2seq 学习任务,并且您想要开发一个模型,该模型将输入英语句子并将其翻译成其他 语言。“All animals are equal but some are more equal than others ”→Badhā prāṇī’ō samāna chē parantu kēṭalāka an’ya karatā vadhu samāna chē你的第一步是获取这个输入句子,运行一个分词器,将它转换成数字,然后将它传递给一个嵌入层,这可能会为这个句子中的每个单词添加一个额外的维度。

在运行 RNN 或 LSTM 时,隐藏状态保留单词在句子中的相对位置信息。然而,在 Transformer 网络中,如果编码器包含一个前馈网络,那么只传递词嵌入就等于为您的模型增加了不必要的混乱,因为在词嵌入中没有捕获有关句子的顺序信息。为了处理单词相对位置的问题,位置编码的想法出现了。

在从嵌入层提取词嵌入后,位置编码被添加到这个嵌入向量中。

解释位置编码最简单的方法是为每个单词分配一个唯一的数字 ∈ ℕ 。或者为每个单词分配一个在 [0,1] ∈ ℝ 范围内的实数(如果输入句子很长,这样可以处理很大的值)。但是,上述两种方法都没有捕捉到单词之间时间步长的准确性。为了克服这个问题,本文使用了 sin 和 cosine 函数形式的位置编码。

打个比方,我们输入模型的序列,无论是句子、视频序列还是股票市场价格数据,都将始终是时域信号。表示时域信号的最佳方式是通过正弦方程 sin(ωt)。如果我们巧妙地使用这个波动方程,我们可以在一次拍摄中捕获词嵌入的时间和维度信息。

让我们看一下这个等式,在接下来的步骤中,我们将尝试把它形象化。

052682a0-cab3-11eb-9e57-12bb97331649.png

让我们考虑一个简单的句子,它被分词,然后它的词嵌入被提取。句子长度为5,嵌入维数为8。因此,每个单词都表示为1x8的向量。

现在我们在时间维度上取一个序列把正弦PE向量加到这个嵌入向量上。

进一步,我们对沿dim维数的其他向量做类似的操作。

本文在嵌入向量中交替加入正弦和余弦。如果dim是偶数,则sin级数相加,如果dim是奇数,则cos级数相加。

这很好地捕获了沿时间维度(或等式中描述的 pos 维度。我将 pos 和 time 互换使用,因为它们意味着相同的事情)但是如何也捕获沿dims维度的相对位置信息呢?这里的答案也在于等式本身。ω 项。

05f41878-cab3-11eb-9e57-12bb97331649.png

随着 i 从 0 增加到 d_embedding/2,频率也从 1/2π 减少到 1/(2π.10000)

因此我们看到,沿着无序方向的每个向量,位置的唯一性被捕获。该论文还描述了这种编码的鲁棒性。但是我仍然无法找出为什么特别使用数字 10000 进行位置编码(它可能是一个超参数吗?)。这个解释粗略地展示了如何使用正弦和余弦对于模型理解是非常合理和有效的。下面的图表本身讲述了位置编码如何随位置(时间)和尺寸变化。

人们可以很容易地看到,这些是简单的时频图,其中位置代表时间,深度代表频率。时间频率图已被用于从射电天文学到材料光谱分析的许多应用中。因此,从现有的现实世界系统构建类比确实可以更好地理解问题。

这是我对注意力机制中使用的位置编码的看法。在接下来的系列中,我将尝试撰写有关编码器-解码器部分的内容,并将注意力应用于现实世界的规模问题。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4764

    浏览量

    100541
  • 编码
    +关注

    关注

    6

    文章

    935

    浏览量

    54764
  • rnn
    rnn
    +关注

    关注

    0

    文章

    88

    浏览量

    6874
  • LSTM
    +关注

    关注

    0

    文章

    59

    浏览量

    3738

原文标题:位置编码在注意机制中的作用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    编码机器人技术的应用 编码传感器系统作用

    编码机器人技术扮演着至关重要的角色,特别是传感器系统,其作用不可忽视。以下是对
    的头像 发表于 11-24 10:02 218次阅读

    编码器的安装注意事项 磁编码测量系统作用

    编码器的安装注意事项 磁编码器的安装过程需要特别注意以下几点,以确保其能够正常工作并长期保持高精度: 避免直接冲击 : 安装磁
    的头像 发表于 11-23 09:28 160次阅读

    编码工业自动化的应用

    编码工业自动化的应用非常广泛,其基于磁场变化来测量转速和位置的工作原理,使其提升生产效率、优化产品质量以及降低能耗等方面发挥着不可
    的头像 发表于 11-23 09:09 224次阅读

    MySQL编码机制原理

    前言 一位读者本地部署 MySQL 测试环境时碰到一个问题,我觉得挺有代表性的,所以写篇文章介绍一下,看完相信你会对 MySQL 的编码机制有最本质的了解,本文的目录结构如下 读者问题简介
    的头像 发表于 11-09 11:01 168次阅读

    对于多级放大电路板,PCB布局,电源摆放的位置应该注意什么?

    对于多级放大电路板,PCB布局,电源摆放的位置应该注意什么,我一些资料上看到过:多级放大电路
    发表于 09-20 08:25

    电机控制系统编码器概述与作用

    编码器分辨率是描述编码测量运动过程中所能分辨的最小位置变化量的指标。理解编码器分辨率对于设计和实现高精度的运动控制系统至关重要。以下是对
    的头像 发表于 08-17 19:49 507次阅读

    简述半导体原理——晶体管家族的核心工作机制

    简述半导体原理——晶体管家族的核心工作机制
    的头像 发表于 07-20 08:14 875次阅读
    <b class='flag-5'>简述</b>半导体原理——晶体管家族的核心工作<b class='flag-5'>机制</b>

    伺服电机编码器的作用和功能是什么

    伺服电机编码器是伺服电机系统的重要组成部分,它的作用和功能对于整个系统的稳定性、精度和可靠性具有至关重要的影响。本文将详细介绍伺服电机编码器的作用
    的头像 发表于 06-17 11:09 1792次阅读

    伺服电机编码器起什么作用

    伺服电机编码器是伺服系统的重要组成部分,它的作用是将伺服电机的旋转位置、速度等信息转换成电信号,为控制系统提供反馈信息。 一、伺服电机编码
    的头像 发表于 06-17 10:52 1665次阅读

    旋转编码PLC怎么编程

    工业自动化领域,旋转编码器与可编程逻辑控制器(PLC)的结合应用极为广泛。旋转编码器通过提供精确的旋转角度或位置信息,为PLC提供反馈信号,进而实现对设备的精确控制。本文将详细介绍旋
    的头像 发表于 06-17 09:24 1432次阅读

    编码机器人系统的应用

    随着科技的飞速发展,机器人技术已广泛应用于工业、医疗、服务等多个领域。机器人系统编码器作为核心的位置和速度检测装置,发挥着至关重要的作用
    的头像 发表于 06-13 14:51 763次阅读

    编码自动化系统的应用

    现代自动化系统编码器作为一种关键的位置和速度检测装置,发挥着不可替代的作用。它能够将电机的角位移或直线位移转换为可计量的电信号,为控制
    的头像 发表于 06-13 14:50 751次阅读

    伺服电机后面的编码器起什么作用

    。本文将详细介绍伺服电机后面的编码器的作用、工作原理、分类以及伺服系统的应用。 一、编码器的作用
    的头像 发表于 06-05 14:53 1625次阅读

    绝对值编码器的工作原理及其电机控制的应用

    绝对值编码电机控制系统的应用 电机控制系统,绝对值编码器带来了精确的
    的头像 发表于 05-21 10:55 1009次阅读
    绝对值<b class='flag-5'>编码</b>器的工作原理及其<b class='flag-5'>在</b>电机控制<b class='flag-5'>中</b>的应用

    镜头分辨率光学系统的核心作用

    简述镜头分辨率,机器视觉检测作用
    发表于 12-01 14:50 0次下载