0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文看懂NLP里的模型框架 Encoder-Decoder和Seq2Seq

电子设计 来源:电子设计 作者:电子设计 2020-12-10 22:19 次阅读

Encoder-Decoder 和 Seq2Seq

机器翻译、对话机器人、诗词生成、代码补全、文章摘要(文本 - 文本)

「文本 - 文本」 是最典型的应用,其输入序列和输出序列的长度可能会有较大的差异。

Google 发表的用Seq2Seq做机器翻译的论文《Sequence to Sequence Learning with Neural Networks》

语音识别音频 - 文本)

语音识别也有很强的序列特征,比较适合 Encoder-Decoder 模型。

Google 发表的使用Seq2Seq做语音识别的论文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》

图像描述生成(图片 - 文本)

通俗的讲就是「看图说话」,机器提取图片特征,然后用文字表达出来。这个应用是计算机视觉和 NLP 的结合。

图像描述生成的论文《Sequence to Sequence – Video to Text》

Encoder-Decoder 的缺陷

上文提到:Encoder(编码器)和 Decoder(解码器)之间只有一个「向量 c」来传递信息,且 c 的长度固定。

为了便于理解,我们类比为「压缩-解压」的过程:

将一张 800X800 像素的图片压缩成 100KB,看上去还比较清晰。再将一张 3000X3000 像素的图片也压缩到 100KB,看上去就模糊了。

Encoder-Decoder 就是类似的问题:当输入信息太长时,会丢失掉一些信息。

Attention 解决信息丢失问题

Attention 机制就是为了解决「信息过长,信息丢失」的问题。

Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量 C」 ,而是编码成一个向量的序列。

这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47183

    浏览量

    238266
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22033
收藏 人收藏

    评论

    相关推荐

    大语言模型开发框架是什么

    大语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言模型开发框架
    的头像 发表于 12-06 10:28 115次阅读

    理解多模态大语言模型——下

    /understanding-multimodal-llms   《理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型,以及构建多模态 LLM 有两种主要方式之
    的头像 发表于 12-03 15:18 114次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b>理解多模态大语言<b class='flag-5'>模型</b>——下

    nlp逻辑层次模型的特点

    NLP(自然语言处理)逻辑层次模型种用于理解和生成自然语言文本的计算模型。它将自然语言文本分解为不同的层次,以便于计算机更好地处理和理解。以下是对
    的头像 发表于 07-09 10:39 375次阅读

    nlp自然语言处理框架有哪些

    许多优秀的框架和工具,这些框架和工具为研究人员和开发者提供了强大的支持。以下是些主要的NLP框架和工具的介绍: NLTK(Natural
    的头像 发表于 07-09 10:28 550次阅读

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是种基于自注意力机制的模型,广泛应用于NLP领域。基于Transformer的LLM
    的头像 发表于 07-09 09:59 596次阅读

    nlp自然语言处理模型怎么做

    的进展。本文将详细介绍NLP模型的构建过程,包括数据预处理、模型选择、训练与优化等方面。 数据预处理 数据预处理是NLP模型构建的第
    的头像 发表于 07-05 09:59 620次阅读

    nlp自然语言处理模型有哪些

    自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的个重要分支,旨在使计算机能够理解、解释和生成人类语言。以下是对NLP领域
    的头像 发表于 07-05 09:57 710次阅读

    NLP模型中RNN与CNN的选择

    NLP中的应用场景、工作原理、优缺点,以及在选择时应考虑的关键因素,以期为读者提供个全面而深入的理解。
    的头像 发表于 07-03 15:59 510次阅读

    基于神经网络的呼吸音分类算法

    的有用子样本。当前模型中使用的注意力机制与通常用于seq2seq模型的机制不同[19]。主要区别在于,seq2seq注意力机制通常使用编码器隐藏状态的加权和来创建上下文向量,并将其映射
    发表于 05-31 12:05

    大语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的基础技术

    ,这也是如今生成式 AI 中大语言模型最流行训练架构。(3) Encoder-Decoder预训练语言模型:这类模型旨在将各种自然语言处理任务统为
    发表于 05-05 12:17

    谷歌模型框架是什么软件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlow。TensorFlow是个开源的机器学习框架
    的头像 发表于 03-01 16:25 870次阅读

    谷歌模型框架是什么?有哪些功能和应用?

    谷歌模型框架(Google Model Framework)并不是个特定的框架,而是指谷歌开发的系列软件
    的头像 发表于 02-29 18:11 1470次阅读

    看懂电感替换方法有哪些

    看懂电感替换方法有哪些 gujing 编辑:谷景电子 电感是各种电子产品中不可缺少的电感元件之,大部分人对电感是存在是存在误解的。有的人觉得电感的存在感很低,有的人觉得电感的质量
    的头像 发表于 01-22 19:28 1118次阅读

    【爱芯派 Pro 开发板试用体验】+ 图像分割和填充的Demo测试

    /big-lama-regular.axmodel 从中可以看到,这个程序加载了encoderdecoder和inpaint三个模型,其中的.axmodel是官方为我们转化好的运行在AX650板子上的专有
    发表于 12-26 11:22