Encoder-Decoder 和 Seq2Seq
机器翻译、对话机器人、诗词生成、代码补全、文章摘要(文本 - 文本)
「文本 - 文本」 是最典型的应用,其输入序列和输出序列的长度可能会有较大的差异。
Google 发表的用Seq2Seq做机器翻译的论文《Sequence to Sequence Learning with Neural Networks》
语音识别也有很强的序列特征,比较适合 Encoder-Decoder 模型。
Google 发表的使用Seq2Seq做语音识别的论文《A Comparison of Sequence-to-Sequence Models for Speech Recognition》
图像描述生成(图片 - 文本)
通俗的讲就是「看图说话」,机器提取图片特征,然后用文字表达出来。这个应用是计算机视觉和 NLP 的结合。
图像描述生成的论文《Sequence to Sequence – Video to Text》
Encoder-Decoder 的缺陷
上文提到:Encoder(编码器)和 Decoder(解码器)之间只有一个「向量 c」来传递信息,且 c 的长度固定。
为了便于理解,我们类比为「压缩-解压」的过程:
将一张 800X800 像素的图片压缩成 100KB,看上去还比较清晰。再将一张 3000X3000 像素的图片也压缩到 100KB,看上去就模糊了。
Encoder-Decoder 就是类似的问题:当输入信息太长时,会丢失掉一些信息。
Attention 解决信息丢失问题
Attention 机制就是为了解决「信息过长,信息丢失」的问题。
Attention 模型的特点是 Eecoder 不再将整个输入序列编码为固定长度的「中间向量 C」 ,而是编码成一个向量的序列。
这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。而且这种方法在翻译任务中取得了非常不错的成果。
审核编辑 黄昊宇
-
人工智能
+关注
关注
1781文章
44923浏览量
232357 -
nlp
+关注
关注
1文章
465浏览量
21888
发布评论请先 登录
相关推荐
基于神经网络的呼吸音分类算法
大语言模型:原理与工程时间+小白初识大语言模型
【大语言模型:原理与工程实践】大语言模型的基础技术
谷歌模型框架是什么软件?谷歌模型框架怎么用?
谷歌模型框架是什么?有哪些功能和应用?
【爱芯派 Pro 开发板试用体验】+ 图像分割和填充的Demo测试
【每周一练】盘古1K开发板 练习四:密码锁实验
【每周一练】+盘古1K开发板+4.密码锁
关于深度学习模型Transformer模型的具体实现方案
![关于深度学习<b class='flag-5'>模型</b>Transformer<b class='flag-5'>模型</b>的具体实现方案](https://file1.elecfans.com/web2/M00/B0/91/wKgZomVW0cSAD_3XAAA5BzZ3d_M909.png)
ADC16 DMA缓冲区最大只能1024位,设置大于1024时,DMA缓冲里的数据打印出来全是0,不知道怎么回事?
深度学习模型部署与优化:策略与实践;L40S与A100、H100的对比分析
![深度学习<b class='flag-5'>模型</b>部署与优化:策略与实践;L40S与A100、H100的对比分析](https://file1.elecfans.com//web2/M00/A5/AB/wKgaomUNMGeAZua-AAJq7Ho1W0I196.png)
Anlogic viterbi decoder用户手册
一种新型的DETR轻量化模型Focus-DETR
![一种新型的DETR轻量化<b class='flag-5'>模型</b>Focus-DETR](https://file1.elecfans.com/web2/M00/8E/CD/wKgZomTKB2OAPj1VAAAR5K9w9Mc515.png)
评论