一文带你了解RNN、LTSM、Seq2Seq、Attention机制-电子发烧友网

上一章我们详细介绍了小样本做文本分类中的胶囊网络，那么这一章我们就来看看RNN（循环神经网络）。大神们准备好了吗，我们要发车了～

首先就是我们为什么需要RNN？

举个简单的例子，最近娱乐圈顶流明星吴亦凡又出新瓜，大家都吃了咩？（反正小编吃的很饱哈）那么就以我吃瓜为例，三个单词标注词性为我/nn 吃/v 瓜/nn。

那么这个任务的输入就是：

我吃瓜（已经分词好的句子）

这个任务的输出是：

我/nn 吃/v 瓜/nn(词性标注好的句子)

很明显，一个句子中，前一个单词其实对于当前单词的词性预测是有很大影响的，比如预测“瓜”的时候，由于前面的吃是一个动词，那么很显然“瓜”作为名词的概率就会远大于动词的概率，因为动词后面接名词很常见，而动词后面接动词很少见。

所以为了更好的处理序列的信息，解决一些这样类似的问题，我们的RNN就诞生了。

rnn的结构和原理

看完初步的概念我们来深入一点看看RNN的结构和原理。rnn的结构和原理

刚开始看到这幅图的同学会不会有一点懵懵？没关系，我们来带着解释一遍～

首先通过这副图，就能明白RNN的意义就是每个输出的状态都只由前一时刻的状态和当前时刻的输入来决定。从等式左边的一个环绕箭头就能明白参数是共享的。

一个序列的每个词就是每个时间步，每个词都会对应得到一个hidden_state，并将这个隐藏层状态输入下一个时间步。

最终会得到output和hidden，output是每一步运算的输出，因此output=(seqence_len, batch_size, hidden_size)。hidden_state是每一步的输出，当然有参数来控制可以取最后一步的输出，所以RNN中一般output=hidden。

lstm的结构和原理

聊完一圈RNN之后，我们来看看它的变种兄弟-LSTM吧！

别慌，我说的不是变种成僵尸的那种东东，Lstm为长短期记忆，是在RNN的基础上引入了细胞状态,根据细胞状态可决定哪些状态应该保留下来,哪些状态应该被遗忘，可以在一定程度上解决梯度消失问题。

那么为了能够学习序列关系的长期依赖，Lstm的输出和rnn一样都包含output和hidden，除此之外还有一个cell_state，这个就是学习序列信息lstm与rnn的差异。

在lstm里面理解的就是用“门”结构，来选择信息通过，关键是用了$sigmoid(\cdot)$函数来区分趋于0的和趋于1的特征数据。

遗忘门：通过$f_t=\sigma(W_f \cdot[h_{t-1},x_t] + b_f)$ 来判断隐藏层信息的取舍。

输入门：

通过$\tanh(\cdot)$，来将隐藏层状态映射到（-1，1）最后来更新$C_{t-1}$ 到$C_t $

输出门：

会发现$f_t、i_t、o_t$的构成是一致的。但是通过不同的权重来学习。因此优化lstm是将遗忘门和输入门合并成了一个更新门，这就是GRU：

可以理解为主要分为两部分，第一部分：

$z_t$表示更新向量，$r_t$表示重置向量，于是在接下来就能够考虑$r_t$与$h_{t-1}$的相关性来去对部分数据进行重置，也就相当于舍弃。实现遗忘门的效果。

第二部分：

很好理解，就可以通过筛选得到的有效的隐藏层信息$\tilde{h}t$和更新向量来获取最终的输出结果$(1-z_t) * h{t-1}$表示对当前一时刻隐藏层状态选择性“遗忘”。$z_t * \tilde{h}_t$就表示对当前序列信息的“记忆”。

sequence-to-sequence的结构和原理

也叫做Encoder-Decoder结构，在encoder和decoder中也都是用序列模型，就是将数据先encode成一个上下文向量context vector，这个context vector可以是1）最后一个隐藏层状态，2）可以是完整的隐藏层输出，3）也可以是对隐藏层输出做激活或者线性变换之后的输出。

之后在decoder中，将context vector作为前一时刻初始化的状态输入从而将语义按监督信息的需要解码。或者将context vector作为decoder每一个时间步的输入。因此会发现seq2seq并不限制输入和输出的序列长度，这就表示应用范围可以很广。

Attention

会发现context vector并不能够包含长句的所有信息，或者说会造成信息的丢失，因此attention机制就是能够向decoder的每一个时间步输入不同的文本信息，提升语义的理解能力。

因为lstm会得到完整的包含每一个时间步的输出得到的ouput和hidden，因此$h_i$和$C_j$的相关性就能够表示在decode第$j$步序列时最关心的文本是那一步的 $h_i $，用 $\alpha_{ij}$来表示。

每一个encoder的hidden单元和每一个decoder的hidden单元做点乘，得到每两个单元之间的相关性，在lstm/rnn之后用attention就是计算hidden和ouput的每个单元之间的相关性，然后做一步$softmax$得到encoder的hidden或者说是lstm的hidden每个单元的attention weights。因此：Attention 无非就是这三个公式：

从常规的（Q，K，V）的角度来理解，可以如图所示：

在Attention中$Q$和$K$分别是hidden和output，同样的$V$也是ouput，在self-attention中Q=K=V，并且$\sqrt{d_k}$有些情况下是不会加在attention过程中的。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7002

浏览量
88942
Gru

Gru

+关注

关注
0

文章
12

浏览量
7477

RNN的应用领域及未来发展趋势

循环神经网络（Recurrent Neural Network, RNN）是一种适合于处理序列数据的深度学习模型。由于其独特的循环结构，RNN能够处理时间序列数据，捕捉时间序列中的动态特征，因此在

发表于 11-15 10:10 •379次阅读

RNN与LSTM模型的比较分析

RNN（循环神经网络）与LSTM（长短期记忆网络）模型在深度学习领域都具有处理序列数据的能力，但它们在结构、功能和应用上存在显著的差异。以下是对RNN与LSTM模型的比较分析：一、基本原理与结构

发表于 11-15 10:05 •362次阅读

RNN的基本原理与实现

RNN，即循环神经网络（Recurrent Neural Network），是一种特殊类型的人工神经网络，专门设计用于处理序列数据，如文本、语音、视频等。以下是对RNN基本原理与实现的介绍：

发表于 11-15 09:49 •403次阅读

一文详解SiC的晶体缺陷

SiC晶体中存在各种缺陷，对SiC器件性能有直接的影响。研究清楚各类缺陷的构成和生长机制非常重要。本文带你了解SiC的晶体缺陷及其如何影响SiC器件特性。

发表于 11-14 14:53 •510次阅读

LSTM神经网络与传统RNN的区别

在深度学习领域，循环神经网络（RNN）因其能够处理序列数据而受到广泛关注。然而，传统RNN在处理长序列时存在梯度消失或梯度爆炸的问题。为了解决这一问题，LSTM（长短期记忆）神经网络应

发表于 11-13 09:58 •278次阅读

智慧公交是什么？一文带你详解智慧公交的解决方案！

智慧公交是什么？一文带你详解智慧公交的解决方案！

发表于 11-05 12:26 •271次阅读

rnn是什么神经网络

RNN（Recurrent Neural Network，循环神经网络）是一种具有循环连接的神经网络，它能够处理序列数据，并且具有记忆能力。与传统的前馈神经网络（Feedforward Neural

发表于 07-05 09:49 •660次阅读

rnn神经网络模型原理

RNN（Recurrent Neural Network，循环神经网络）是一种具有循环结构的神经网络，它能够处理序列数据，具有记忆功能。RNN在自然语言处理、语音识别、时间序列预测等领域有着广泛

发表于 07-04 15:40 •572次阅读

RNN神经网络适用于什么

RNN（Recurrent Neural Network，循环神经网络）是一种具有循环结构的神经网络，它可以处理序列数据，具有记忆功能。RNN在许多领域都有广泛的应用，以下是一些

发表于 07-04 15:04 •960次阅读

rnn神经网络基本原理

RNN（Recurrent Neural Network，循环神经网络）是一种具有循环结构的神经网络，它能够处理序列数据，并且能够捕捉时间序列数据中的动态特征。RNN在自然语言处理、语音识别、时间

发表于 07-04 15:02 •713次阅读

基于神经网络的呼吸音分类算法

。因此，seq2seq中的注意力扩展了解码器在序列预测过程中的视野。我们的MASK层依赖于预测的噪声和异常标签，因为它接收来自两个RNN块的梯度。我们进行了额外的实验，以表明具有MASK机制

发表于 05-31 12:05

一文带你了解PWM原理、频率与占空比

什么是PWM脉冲宽度调制(PWM)，是英文“Pulse Width Modulation”的缩写，简称脉宽调制，是利用微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术，广泛应用在从测量

发表于 03-27 14:12

Xilinx FPGA NVMe主机控制器IP，高性能版本介绍应用

，使用NVMe的多队列特性，NVMe Host Controller IP支持灵活配置DMA读写的通道个数，按照NVMe队列优先级仲裁机制，实现多个DMA通道对同一块PCIe SSD的高效访问，从而

发表于 03-09 13:56

什么是RNN （循环神经网络）？

循环神经网络 (RNN) 是一种深度学习结构，它使用过去的信息来提高网络处理当前和将来输入的性能。RNN 的独特之处在于该网络包含隐藏状态和循环。

发表于 02-29 14:56 •4006次阅读

pcb应变测试有多重要？一文了解！

pcb应变测试有多重要？一文了解！

发表于 02-24 16:26 •1081次阅读

搜索历史

一文带你了解RNN、LTSM、Seq2Seq、Attention机制

评论

RNN的应用领域及未来发展趋势

RNN与LSTM模型的比较分析

RNN的基本原理与实现

一文详解SiC的晶体缺陷

LSTM神经网络与传统RNN的区别

智慧公交是什么？一文带你详解智慧公交的解决方案！

rnn是什么神经网络

rnn神经网络模型原理

RNN神经网络适用于什么

rnn神经网络基本原理

基于神经网络的呼吸音分类算法

一文带你了解PWM原理、频率与占空比

Xilinx FPGA NVMe主机控制器IP，高性能版本介绍应用

什么是RNN （循环神经网络）？

pcb应变测试有多重要？一文了解！