0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq

电子设计 来源:电子设计 作者:电子设计 2020-12-10 22:19 次阅读

Encoder-Decoder 和 Seq2Seq

机器翻译、对话机器人、诗词生成、代码补全、文章摘要(文本 - 文本)

「文本 - 文本」 是最典型的应用,其输入序列和输出序列的长度可能会有较大的差异。

Google 发表的用Seq2Seq做机器翻译的论文《Sequence to Sequence Learning with Neural Networks》

语音识别音频 - 文本)

语音识别也有很强的序列特征,比较适合 Encoder-Decoder 模型。

Google 发表的使用Seq2Seq做语音识别的论文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》

图像描述生成(图片 - 文本)

通俗的讲就是「看图说话」,机器提取图片特征,然后用文字表达出来。这个应用是计算机视觉和 NLP 的结合。

图像描述生成的论文《Sequence to Sequence – Video to Text》

Encoder-Decoder 的缺陷

上文提到:Encoder(编码器)和 Decoder(解码器)之间只有一个「向量 c」来传递信息,且 c 的长度固定。

为了便于理解,我们类比为「压缩-解压」的过程:

将一张 800X800 像素的图片压缩成 100KB,看上去还比较清晰。再将一张 3000X3000 像素的图片也压缩到 100KB,看上去就模糊了。

Encoder-Decoder 就是类似的问题:当输入信息太长时,会丢失掉一些信息。

Attention 解决信息丢失问题

Attention 机制就是为了解决「信息过长,信息丢失」的问题。

Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量 C」 ,而是编码成一个向量的序列。

这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1789

    文章

    46576

    浏览量

    236894
  • nlp
    nlp
    +关注

    关注

    1

    文章

    483

    浏览量

    21984
收藏 人收藏

    评论

    相关推荐

    nlp逻辑层次模型的特点

    NLP(自然语言处理)逻辑层次模型种用于理解和生成自然语言文本的计算模型。它将自然语言文本分解为不同的层次,以便于计算机更好地处理和理解。以下是对
    的头像 发表于 07-09 10:39 286次阅读

    nlp自然语言处理框架有哪些

    许多优秀的框架和工具,这些框架和工具为研究人员和开发者提供了强大的支持。以下是些主要的NLP框架和工具的介绍: NLTK(Natural
    的头像 发表于 07-09 10:28 448次阅读

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是种基于自注意力机制的模型,广泛应用于NLP领域。基于Transformer的LLM
    的头像 发表于 07-09 09:59 499次阅读

    nlp自然语言处理模型怎么做

    的进展。本文将详细介绍NLP模型的构建过程,包括数据预处理、模型选择、训练与优化等方面。 数据预处理 数据预处理是NLP模型构建的第
    的头像 发表于 07-05 09:59 484次阅读

    nlp自然语言处理模型有哪些

    自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的个重要分支,旨在使计算机能够理解、解释和生成人类语言。以下是对NLP领域
    的头像 发表于 07-05 09:57 571次阅读

    基于神经网络的呼吸音分类算法

    的有用子样本。当前模型中使用的注意力机制与通常用于seq2seq模型的机制不同[19]。主要区别在于,seq2seq注意力机制通常使用编码器隐藏状态的加权和来创建上下文向量,并将其映射
    发表于 05-31 12:05

    大语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的基础技术

    ,这也是如今生成式 AI 中大语言模型最流行训练架构。(3) Encoder-Decoder预训练语言模型:这类模型旨在将各种自然语言处理任务统为
    发表于 05-05 12:17

    谷歌模型框架是什么软件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlow。TensorFlow是个开源的机器学习框架
    的头像 发表于 03-01 16:25 760次阅读

    谷歌模型框架是什么?有哪些功能和应用?

    谷歌模型框架(Google Model Framework)并不是个特定的框架,而是指谷歌开发的系列软件
    的头像 发表于 02-29 18:11 1371次阅读

    【每周练】+盘古1K开发板+4.密码锁

    前言 按照要求,应该实现如下功能: 实验目的: 利用按键、拨码开关以及数码管实现种简单的密码锁 实验要求: 拨码开关SW1-SW4 设置 2 位数密码,每两位设置位密码,BM[0:1]设置
    发表于 12-17 17:05

    看懂BLE Mesh

    看懂BLE Mesh
    的头像 发表于 12-06 16:24 1373次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>看懂</b>BLE Mesh

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 486次阅读
    关于深度学习<b class='flag-5'>模型</b>Transformer<b class='flag-5'>模型</b>的具体实现方案

    ADC16 DMA缓冲区最大只能1024位,设置大于1024时,DMA缓冲的数据打印出来全是0,不知道怎么回事?

    根据例程更改序列采样,利用个定时器定时进行序列采样,自动放入DMA缓冲区,由于需要的通道和数据较多,设置缓冲区大于1024位,现发现当我设置大于1024,例如2048位的时候,Printf()输出
    发表于 11-13 21:31

    DSP28335的ADC模块使用介绍

    级联模式或双排序模式,采用级联模式,8状态排序器SEQ1和SEQ2构成16状态的SEQ
    的头像 发表于 11-08 10:37 9479次阅读
    DSP28335的ADC模块使用介绍