0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq

电子设计 来源:电子设计 作者:电子设计 2020-12-10 22:19 次阅读

Encoder-Decoder 和 Seq2Seq

机器翻译、对话机器人、诗词生成、代码补全、文章摘要(文本 - 文本)

「文本 - 文本」 是最典型的应用,其输入序列和输出序列的长度可能会有较大的差异。

Google 发表的用Seq2Seq做机器翻译的论文《Sequence to Sequence Learning with Neural Networks》

语音识别音频 - 文本)

语音识别也有很强的序列特征,比较适合 Encoder-Decoder 模型。

Google 发表的使用Seq2Seq做语音识别的论文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》

图像描述生成(图片 - 文本)

通俗的讲就是「看图说话」,机器提取图片特征,然后用文字表达出来。这个应用是计算机视觉和 NLP 的结合。

图像描述生成的论文《Sequence to Sequence – Video to Text》

Encoder-Decoder 的缺陷

上文提到:Encoder(编码器)和 Decoder(解码器)之间只有一个「向量 c」来传递信息,且 c 的长度固定。

为了便于理解,我们类比为「压缩-解压」的过程:

将一张 800X800 像素的图片压缩成 100KB,看上去还比较清晰。再将一张 3000X3000 像素的图片也压缩到 100KB,看上去就模糊了。

Encoder-Decoder 就是类似的问题:当输入信息太长时,会丢失掉一些信息。

Attention 解决信息丢失问题

Attention 机制就是为了解决「信息过长,信息丢失」的问题。

Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量 C」 ,而是编码成一个向量的序列。

这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46838

    浏览量

    237493
  • nlp
    nlp
    +关注

    关注

    1

    文章

    487

    浏览量

    22007
收藏 人收藏

    评论

    相关推荐

    nlp逻辑层次模型的特点

    NLP(自然语言处理)逻辑层次模型种用于理解和生成自然语言文本的计算模型。它将自然语言文本分解为不同的层次,以便于计算机更好地处理和理解。以下是对
    的头像 发表于 07-09 10:39 318次阅读

    nlp自然语言处理框架有哪些

    许多优秀的框架和工具,这些框架和工具为研究人员和开发者提供了强大的支持。以下是些主要的NLP框架和工具的介绍: NLTK(Natural
    的头像 发表于 07-09 10:28 490次阅读

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是种基于自注意力机制的模型,广泛应用于NLP领域。基于Transformer的LLM
    的头像 发表于 07-09 09:59 543次阅读

    nlp自然语言处理模型怎么做

    的进展。本文将详细介绍NLP模型的构建过程,包括数据预处理、模型选择、训练与优化等方面。 数据预处理 数据预处理是NLP模型构建的第
    的头像 发表于 07-05 09:59 524次阅读

    nlp自然语言处理模型有哪些

    自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的个重要分支,旨在使计算机能够理解、解释和生成人类语言。以下是对NLP领域
    的头像 发表于 07-05 09:57 607次阅读

    NLP模型中RNN与CNN的选择

    NLP中的应用场景、工作原理、优缺点,以及在选择时应考虑的关键因素,以期为读者提供个全面而深入的理解。
    的头像 发表于 07-03 15:59 419次阅读

    基于神经网络的呼吸音分类算法

    的有用子样本。当前模型中使用的注意力机制与通常用于seq2seq模型的机制不同[19]。主要区别在于,seq2seq注意力机制通常使用编码器隐藏状态的加权和来创建上下文向量,并将其映射
    发表于 05-31 12:05

    大语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的基础技术

    ,这也是如今生成式 AI 中大语言模型最流行训练架构。(3) Encoder-Decoder预训练语言模型:这类模型旨在将各种自然语言处理任务统为
    发表于 05-05 12:17

    谷歌模型框架是什么软件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlow。TensorFlow是个开源的机器学习框架
    的头像 发表于 03-01 16:25 792次阅读

    谷歌模型框架是什么?有哪些功能和应用?

    谷歌模型框架(Google Model Framework)并不是个特定的框架,而是指谷歌开发的系列软件
    的头像 发表于 02-29 18:11 1405次阅读

    看懂电感替换方法有哪些

    看懂电感替换方法有哪些 gujing 编辑:谷景电子 电感是各种电子产品中不可缺少的电感元件之,大部分人对电感是存在是存在误解的。有的人觉得电感的存在感很低,有的人觉得电感的质量
    的头像 发表于 01-22 19:28 1031次阅读

    【每周练】盘古1K开发板 练习四:密码锁实验

    错误时显示7777。 SW1- SW4 设置2 位数密码,每两位设置位密码,BM[0:1]设置第位对应BM1 和BM2,BM[2:3]设
    发表于 12-22 18:39

    【每周练】+盘古1K开发板+4.密码锁

    前言 按照要求,应该实现如下功能: 实验目的: 利用按键、拨码开关以及数码管实现种简单的密码锁 实验要求: 拨码开关SW1-SW4 设置 2 位数密码,每两位设置位密码,BM[0:1]设置
    发表于 12-17 17:05

    看懂BLE Mesh

    看懂BLE Mesh
    的头像 发表于 12-06 16:24 1421次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>看懂</b>BLE Mesh