简述位置编码在注意机制中的作用-电子发烧友网

有一种叫做注意机制的东西，但是你不需要知道注意力具体实现。

RNN/LSTM的不足。

A. Vaswani等人的《Attention Is All You Need》被认为是解决了众所周知的LSTM/RNN体系结构在深度学习空间中的局限性的突破之一。本文介绍了transformers 在seq2seq任务中的应用。该论文巧妙地利用了 D.Bahdanau 等人通过联合学习对齐和翻译的神经机器翻译注意机制的使用。并且提供一些示例明确且详尽地解释了注意力机制的数学和应用。

在本文中，我将专注于注意力机制的位置编码部分及其数学。

假设您正在构建一个 seq2seq 学习任务，并且您想要开发一个模型，该模型将输入英语句子并将其翻译成其他语言。“All animals are equal but some are more equal than others ”→Badhā prāṇī’ō samāna chē parantu kēṭalāka an’ya karatā vadhu samāna chē你的第一步是获取这个输入句子，运行一个分词器，将它转换成数字，然后将它传递给一个嵌入层，这可能会为这个句子中的每个单词添加一个额外的维度。

在运行 RNN 或 LSTM 时，隐藏状态保留单词在句子中的相对位置信息。然而，在 Transformer 网络中，如果编码器包含一个前馈网络，那么只传递词嵌入就等于为您的模型增加了不必要的混乱，因为在词嵌入中没有捕获有关句子的顺序信息。为了处理单词相对位置的问题，位置编码的想法出现了。

在从嵌入层提取词嵌入后，位置编码被添加到这个嵌入向量中。

解释位置编码最简单的方法是为每个单词分配一个唯一的数字 ∈ ℕ 。或者为每个单词分配一个在［0，1］ ∈ ℝ 范围内的实数（如果输入句子很长，这样可以处理很大的值）。但是，上述两种方法都没有捕捉到单词之间时间步长的准确性。为了克服这个问题，本文使用了 sin 和 cosine 函数形式的位置编码。

打个比方，我们输入模型的序列，无论是句子、视频序列还是股票市场价格数据，都将始终是时域信号。表示时域信号的最佳方式是通过正弦方程 sin（ωt）。如果我们巧妙地使用这个波动方程，我们可以在一次拍摄中捕获词嵌入的时间和维度信息。

让我们看一下这个等式，在接下来的步骤中，我们将尝试把它形象化。

让我们考虑一个简单的句子，它被分词，然后它的词嵌入被提取。句子长度为5，嵌入维数为8。因此，每个单词都表示为1x8的向量。

现在我们在时间维度上取一个序列把正弦PE向量加到这个嵌入向量上。

进一步，我们对沿dim维数的其他向量做类似的操作。

本文在嵌入向量中交替加入正弦和余弦。如果dim是偶数，则sin级数相加，如果dim是奇数，则cos级数相加。

这很好地捕获了沿时间维度（或等式中描述的 pos 维度。我将 pos 和 time 互换使用，因为它们意味着相同的事情）但是如何也捕获沿dims维度的相对位置信息呢？这里的答案也在于等式本身。ω 项。

随着 i 从 0 增加到 d_embedding/2，频率也从 1/2π 减少到 1/（2π.10000）

因此我们看到，沿着无序方向的每个向量，位置的唯一性被捕获。该论文还描述了这种编码的鲁棒性。但是我仍然无法找出为什么特别使用数字 10000 进行位置编码（它可能是一个超参数吗？）。这个解释粗略地展示了如何使用正弦和余弦对于模型理解是非常合理和有效的。下面的图表本身讲述了位置编码如何随位置（时间）和尺寸变化。

人们可以很容易地看到，这些是简单的时频图，其中位置代表时间，深度代表频率。时间频率图已被用于从射电天文学到材料光谱分析的许多应用中。因此，从现有的现实世界系统构建类比确实可以更好地理解问题。

这是我对注意力机制中使用的位置编码的看法。在接下来的系列中，我将尝试撰写有关编码器-解码器部分的内容，并将注意力应用于现实世界的规模问题。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100763
编码

编码

+关注

关注
6

文章
942

浏览量
54827
rnn

rnn

+关注

关注
0

文章
89

浏览量
6891
LSTM

LSTM

+关注

关注
0

文章
59

浏览量
3750

原文标题：位置编码在注意机制中的作用

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

编码器在机器人技术中的应用编码器在传感器系统中的作用

编码器在机器人技术中扮演着至关重要的角色，特别是在传感器系统中，其作用不可忽视。以下是对

发表于 11-24 10:02 •538次阅读

磁编码器的安装注意事项磁编码器在测量系统中的作用

磁编码器的安装注意事项磁编码器的安装过程需要特别注意以下几点，以确保其能够正常工作并长期保持高精度：避免直接冲击：在安装磁

发表于 11-23 09:28 •248次阅读

磁编码器在工业自动化中的应用

磁编码器在工业自动化中的应用非常广泛，其基于磁场变化来测量转速和位置的工作原理，使其在提升生产效率、优化产品质量以及降低能耗等方面发挥着不可

发表于 11-23 09:09 •459次阅读

MySQL编码机制原理

前言一位读者在本地部署 MySQL 测试环境时碰到一个问题，我觉得挺有代表性的，所以写篇文章介绍一下，看完相信你会对 MySQL 的编码机制有最本质的了解，本文的目录结构如下读者问题简介

发表于 11-09 11:01 •243次阅读

对于多级放大电路板，在PCB布局中，电源摆放的位置应该注意什么？

对于多级放大电路板，在PCB布局中，电源摆放的位置应该注意什么，我在一些资料上看到过：多级放大电路中

发表于 09-20 08:25

全极霍尔传感器AH471在电动牙刷中起位置检测作用

全极霍尔传感器AH471在电动牙刷中起位置检测作用

发表于 09-14 09:58 •297次阅读

电机控制系统中的编码器概述与作用

编码器分辨率是描述编码器在测量运动过程中所能分辨的最小位置变化量的指标。理解编码器分辨率对于设计和实现高精度的运动控制系统至关重要。以下是对

发表于 08-17 19:49 •576次阅读

简述半导体原理——晶体管家族的核心工作机制

简述半导体原理——晶体管家族的核心工作机制

发表于 07-20 08:14 •967次阅读

伺服电机编码器的作用和功能是什么

伺服电机编码器是伺服电机系统中的重要组成部分，它的作用和功能对于整个系统的稳定性、精度和可靠性具有至关重要的影响。本文将详细介绍伺服电机编码器的作用

发表于 06-17 11:09 •2059次阅读

伺服电机编码器起什么作用

伺服电机编码器是伺服系统中的重要组成部分，它的作用是将伺服电机的旋转位置、速度等信息转换成电信号，为控制系统提供反馈信息。一、伺服电机编码

发表于 06-17 10:52 •1883次阅读

旋转编码器在PLC中怎么编程

在工业自动化领域，旋转编码器与可编程逻辑控制器（PLC）的结合应用极为广泛。旋转编码器通过提供精确的旋转角度或位置信息，为PLC提供反馈信号，进而实现对设备的精确控制。本文将详细介绍旋

发表于 06-17 09:24 •1663次阅读

编码器在机器人系统中的应用

随着科技的飞速发展，机器人技术已广泛应用于工业、医疗、服务等多个领域。在机器人系统中，编码器作为核心的位置和速度检测装置，发挥着至关重要的作用

发表于 06-13 14:51 •838次阅读

编码器在自动化系统中的应用

在现代自动化系统中，编码器作为一种关键的位置和速度检测装置，发挥着不可替代的作用。它能够将电机的角位移或直线位移转换为可计量的电信号，为控制

发表于 06-13 14:50 •854次阅读

伺服电机后面的编码器起什么作用

。本文将详细介绍伺服电机后面的编码器的作用、工作原理、分类以及在伺服系统中的应用。一、编码器的作用

发表于 06-05 14:53 •1858次阅读

绝对值编码器的工作原理及其在电机控制中的应用

绝对值编码器在电机控制系统中的应用在电机控制系统中，绝对值编码器带来了精确的

发表于 05-21 10:55 •1170次阅读

搜索历史

简述位置编码在注意机制中的作用

评论

编码器在机器人技术中的应用编码器在传感器系统中的作用

磁编码器的安装注意事项磁编码器在测量系统中的作用

磁编码器在工业自动化中的应用

MySQL编码机制原理

对于多级放大电路板，在PCB布局中，电源摆放的位置应该注意什么？

全极霍尔传感器AH471在电动牙刷中起位置检测作用

电机控制系统中的编码器概述与作用

简述半导体原理——晶体管家族的核心工作机制

伺服电机编码器的作用和功能是什么

伺服电机编码器起什么作用

旋转编码器在PLC中怎么编程

编码器在机器人系统中的应用

编码器在自动化系统中的应用

伺服电机后面的编码器起什么作用

绝对值编码器的工作原理及其在电机控制中的应用