0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT从入门到深入

深度学习自然语言处理 来源:无数据不智能 2023-05-16 10:42 次阅读

ChatGPT从入门到深入(持续更新中)

循环记忆输入

Recurrent Memory Transformer (RMT)

1d61838c-f35c-11ed-90ce-dac502259ad0.png

总体思想:将长文本分段之后得到嵌入向量与记忆向量拼接,得到新的记忆向量之后与下一段再循环输入transformer。

注意:此论文实验结果在bert-base-cased(encoder-only上进行实验)

1d887064-f35c-11ed-90ce-dac502259ad0.png

CoLT5达到64K,GPT-4达到32K长度,而RMT在实验结果中长度加到4096个分段2048000词汇,效果依然强劲。

用提示词

Self-Controlled Memory (SCM)

1db53306-f35c-11ed-90ce-dac502259ad0.png

如上图所示,此方法号称可以将输入延申至无限长,具体流程为:

  1. 用户输入

  2. 判断是否需要从历史会话中获得记忆,提示词如下:

    给定一个用户指令,判断执行该指令是否需要历史信
    息或者上文的信息,或者需要回忆对话内容,只需要
    回答是(A)或者否(B),不需要解释信息:
    指令:[用户输入]
    
  3. 如果需要获取记忆,通过相关性(余弦相似度)、近期性分数相加对历史记忆进行排序

  4. 将记忆摘要

    以下是用户和人工智能助手的一段对话,请分
    别用一句话写出用户摘要、助手摘要,分段列
    出,要求尽可能保留用户问题和助手回答的关
    键信息。
    对话内容:
    用户:[用户输入]
    助手:[系统回复]
    摘要:
    
  5. 将记忆和输入拼接输入模型

    以下是用户和人工智能助手的对话,请根据历史
    对话内容,回答用户当前问题:
    相关历史对话:
    [历史轮对话内容]
    上一轮对话:
    [上一轮对话内容]
    ###
    用户:[用户问题]
    助手:
    
  6. 回复

注意:此论文中只进行了定性分析,没有定量实验。以下是效果图:

1e0293bc-f35c-11ed-90ce-dac502259ad0.png

词汇压缩

VIP-token centric compression (Vcc)

1e5d10bc-f35c-11ed-90ce-dac502259ad0.png

该方法使得模型输入延申至128K,并在Encoder-Only、Encoder-Decoder两种模型架构上都进行了实验。

一句话描述思想:使模型输入长度独立于文本长度。

具体一点:

  1. 将当前问句视为vip-token
  2. 利用当前问句与历史记忆的关系,压缩历史记忆到模型输入长度,无论历史记忆有多长
  3. transformer层输出之后再进行解压缩

Encoder-Only架构表现:

1e9f5b66-f35c-11ed-90ce-dac502259ad0.png

Encoder-Decoder表现:

1ec22858-f35c-11ed-90ce-dac502259ad0.png

检索+交叉注意力

Unlimited Length Input Transformers (Unlimiformer)

1f1d2a50-f35c-11ed-90ce-dac502259ad0.png

此方法只试用于Encoder-Decoder架构,其也称可以将输入长度延申至无限长。

思路如下:

  1. 将长文本分成多个部分,将每一段进行编码
  2. 利用query KNN检索长文本topN
  3. 解码器对相关段落编码后的隐藏状态进行交叉注意力
  4. 得到输出

可以看到此方法在长文本摘要任务上都取得了优异的结果

1f61dba0-f35c-11ed-90ce-dac502259ad0.png

累加

ALiBi(attention with linear biases),输出累加

1f87801c-f35c-11ed-90ce-dac502259ad0.png

简单介绍一下ALiBi:

  1. 不再输入层保留位置向量
  2. 而在每层注入线性的偏移量,注意力分数从:

变成了:

可以看到ALiBi比Sinusoidal、Rotary、T5 Bias在长距离输入上效果都要好得多。

1fa12fb2-f35c-11ed-90ce-dac502259ad0.png

mosaicml/mpt-7b模型利用ALiBi将输入长度扩展至了84k,核心的思想为一下几行代码:

all_hidden_states=()ifoutput_hidden_stateselseNone
for(b_idx,block)inenumerate(self.blocks):
ifoutput_hidden_states:
assertall_hidden_statesisnotNone
all_hidden_states=all_hidden_states+(x,)
past_key_value=past_key_values[b_idx]ifpast_key_valuesisnotNoneelseNone
(x,past_key_value)=block(x,past_key_value=past_key_value,attn_bias=attn_bias,attention_mask=attention_mask,is_causal=self.is_causal)
ifpast_key_valuesisnotNone:
past_key_values[b_idx]=past_key_value

即MPT会对上次得到隐藏状态与本次的输入进行相加。


审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1800

    文章

    48094

    浏览量

    242228
  • ChatGPT
    +关注

    关注

    29

    文章

    1579

    浏览量

    8304

原文标题:引用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    C嵌入式C编程语言_入门·实用·深入_10...

    C嵌入式C编程语言_入门·实用·深入_10...
    发表于 08-18 07:37

    科技大厂竞逐AIGC,中国的ChatGPT在哪?

    产业版ChatGPT--ChatJD。 可见,大厂的态度十分鲜明:ChatGPT已经是既定的未来,这场新的科技竞技赛哨声响起,谁都不甘落于下风。科技巨头,行业龙头,中国企业竞逐A
    发表于 03-03 14:28

    DSP入门精通全集

    DSP入门精通全集
    发表于 03-30 23:20 8489次下载

    nios入门精通

    nios入门精通
    发表于 07-08 16:55 0次下载

    Ubuntu入门精通

    《Ubuntu入门精通》Ubuntu一般是作为学习linux的入门操作系统,界面良好,现在已经非常流行,书中讲的很多系统的使用技巧
    发表于 10-30 17:14 167次下载

    《HTML 5 入门精通》-中文学习教程

    《HTML 5 入门精通》-中文学习教程.pdf 《HTML 5 入门精通》-中文学习教
    发表于 11-02 17:45 0次下载

    单片机入门精通

    单片机入门的必备程序 通过练习 层层深入 稳步提高
    发表于 01-19 11:34 11次下载

    Unity5 入门精通

    Unity5 入门精通。
    发表于 04-18 14:26 6次下载

    开关电容电路入门精通

    图灵 开关电容电路 入门精通
    发表于 12-29 20:39 58次下载

    C游戏编程入门精通

    C游戏编程入门精通
    发表于 03-31 15:56 0次下载

    电工基础入门知识大全入门精通

    本文档内容介绍了电工基础入门知识大全,电工新手学什么电工入门
    发表于 09-23 11:59 541次下载
    电工基础<b class='flag-5'>入门</b>知识大全<b class='flag-5'>从</b><b class='flag-5'>入门</b><b class='flag-5'>到</b>精通

    ChatGPT入门指南

      ChatGPT入门指南   什么是ChatGPT?   为什么ChatGPT意义重大?   如何使用ChatGPT
    发表于 02-10 11:19 7次下载
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>入门</b>指南

    Android Studio入门精通

    Android Studio入门精通.pdf
    发表于 08-14 15:05 6次下载

    DeepSeek:入门精通

    DeepSeek:入门精通
    发表于 02-08 18:00 105次下载

    DeepSeek入门精通

    电子发烧友网站提供《DeepSeek入门精通.pdf》资料免费下载
    发表于 03-04 15:43 1次下载