0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq

电子设计 来源:电子设计 作者:电子设计 2020-12-10 22:19 次阅读

Encoder-Decoder 和 Seq2Seq

机器翻译、对话机器人、诗词生成、代码补全、文章摘要(文本 - 文本)

「文本 - 文本」 是最典型的应用,其输入序列和输出序列的长度可能会有较大的差异。

Google 发表的用Seq2Seq做机器翻译的论文《Sequence to Sequence Learning with Neural Networks》

语音识别音频 - 文本)

语音识别也有很强的序列特征,比较适合 Encoder-Decoder 模型。

Google 发表的使用Seq2Seq做语音识别的论文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》

图像描述生成(图片 - 文本)

通俗的讲就是「看图说话」,机器提取图片特征,然后用文字表达出来。这个应用是计算机视觉和 NLP 的结合。

图像描述生成的论文《Sequence to Sequence – Video to Text》

Encoder-Decoder 的缺陷

上文提到:Encoder(编码器)和 Decoder(解码器)之间只有一个「向量 c」来传递信息,且 c 的长度固定。

为了便于理解,我们类比为「压缩-解压」的过程:

将一张 800X800 像素的图片压缩成 100KB,看上去还比较清晰。再将一张 3000X3000 像素的图片也压缩到 100KB,看上去就模糊了。

Encoder-Decoder 就是类似的问题:当输入信息太长时,会丢失掉一些信息。

Attention 解决信息丢失问题

Attention 机制就是为了解决「信息过长,信息丢失」的问题。

Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量 C」 ,而是编码成一个向量的序列。

这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1781

    文章

    44923

    浏览量

    232357
  • nlp
    nlp
    +关注

    关注

    1

    文章

    465

    浏览量

    21888
收藏 人收藏

    评论

    相关推荐

    基于神经网络的呼吸音分类算法

    的有用子样本。当前模型中使用的注意力机制与通常用于seq2seq模型的机制不同[19]。主要区别在于,seq2seq注意力机制通常使用编码器隐藏状态的加权和来创建上下文向量,并将其映射
    发表于 05-31 12:05

    大语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的基础技术

    ,这也是如今生成式 AI 中大语言模型最流行训练架构。(3) Encoder-Decoder预训练语言模型:这类模型旨在将各种自然语言处理任务统为
    发表于 05-05 12:17

    谷歌模型框架是什么软件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架,由谷歌的机器学习团队开发,用于构建和
    的头像 发表于 03-01 16:25 419次阅读

    谷歌模型框架是什么?有哪些功能和应用?

    谷歌模型框架(Google Model Framework)并不是一个特定的框架,而是指谷歌开发的一系列软件框架,用于支持机器学习和人工智能的应用。以下是一些与谷歌
    的头像 发表于 02-29 18:11 916次阅读

    【爱芯派 Pro 开发板试用体验】+ 图像分割和填充的Demo测试

    /big-lama-regular.axmodel 从中可以看到,这个程序加载了encoderdecoder和inpaint三个模型,其中的.axmodel是官方为我们转化好的运行在AX650板子上的专有
    发表于 12-26 11:22

    【每周练】盘古1K开发板 练习四:密码锁实验

    错误时显示7777。 SW1- SW4 设置2 位数密码,每两位设置位密码,BM[0:1]设置第位对应BM1 和BM2,BM[2:3]设
    发表于 12-22 18:39

    【每周练】+盘古1K开发板+4.密码锁

    前言 按照要求,应该实现如下功能: 实验目的: 利用按键、拨码开关以及数码管实现种简单的密码锁 实验要求: 拨码开关SW1-SW4 设置 2 位数密码,每两位设置位密码,BM[0:1]设置
    发表于 12-17 17:05

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 381次阅读
    关于深度学习<b class='flag-5'>模型</b>Transformer<b class='flag-5'>模型</b>的具体实现方案

    ADC16 DMA缓冲区最大只能1024位,设置大于1024时,DMA缓冲的数据打印出来全是0,不知道怎么回事?

    根据例程更改序列采样,利用个定时器定时进行序列采样,自动放入DMA缓冲区,由于需要的通道和数据较多,设置缓冲区大于1024位,现发现当我设置大于1024,例如2048位的时候,Printf()输出
    发表于 11-13 21:31

    DSP28335的ADC模块使用介绍

    级联模式或双排序模式,采用级联模式,8状态排序器SEQ1和SEQ2构成16状态的SEQ
    的头像 发表于 11-08 10:37 6412次阅读
    DSP28335的ADC模块使用介绍

    深度学习模型部署与优化:策略与实践;L40S与A100、H100的对比分析

    深度学习、机器学习、生成式AI、深度神经网络、抽象学习、Seq2Seq、VAE、GAN、GPT、BERT、预训练语言模型、Transformer、ChatGPT、GenAI、多模态大模型、视觉大
    的头像 发表于 09-22 14:13 817次阅读
    深度学习<b class='flag-5'>模型</b>部署与优化:策略与实践;L40S与A100、H100的对比分析

    Anlogic viterbi decoder用户手册

    viterbi encoder,维特比译码,是卷积编码常用的配套译码器。 Anlogic viterbi decoder 实现了标准的维特比译码,其特性如下: 1. IP 支持 Anlogic
    发表于 08-09 06:51

    一种新型的DETR轻量化模型Focus-DETR

    作者对多个 DETR 类检测器的 GFLOPs 和时延进行了对比分析,如图 1 所示。从图中发现,在 Deformable-DETR 和 DINO 中,encoder 的计算量分别是 decoder
    的头像 发表于 08-02 15:34 449次阅读
    一种新型的DETR轻量化<b class='flag-5'>模型</b>Focus-DETR

    如何计算transformer模型的参数量

    基于transformer模型的,模型结构主要有两大类:encoder-decoder(代表模型是T5)和decoder-only,具体的,
    的头像 发表于 07-10 09:13 9459次阅读
    如何计算transformer<b class='flag-5'>模型</b>的参数量