0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么ChatGPT模型大了就有上下文联系能力?

深度学习自然语言处理 来源:深度学习自然语言处理 2023-04-27 09:50 次阅读

关于这点,在一篇采访OpenAI 总裁Greg Brockman 的报道中提到了:

“Q:ChatGPT是如何产生的?GPT模型当初发布时显得有些违反常识,但却在某种程度上掀起了最新的AI浪潮,这与你们当初构建这些技术时的预期是否一致?

A:ChatGPT、GPT-3、DALL·E 2这些模型看似一夜成名,但其实构建这些模型耗费了整整五年时间,饱含多年的心血。GPT模型的构建要从2017年发布的情感神经元论文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)说起,这篇论文的思想很新颖,不过很多人可能已经忘了。

....“

于是好奇去查了这篇文章,很遗憾,并不是上面提到的这篇文章,而是官网Learning to Generate Reviews and Discovering Sentiment这篇文章。这篇文章的作者很激动、诚恳甚至有点卑微的表达了它的意外发现,那就是单纯训练LSTM 模型的去预测下一个单词,模型中的某个神经元意外对应着情感状态,用Greg Brockman的原话说就是:

“我们发现LSTM模型中的单个神经元有助于开发出SOTA情感分析分类器(sentiment analysis classifier),可以告知你文本情感(正面评价或负面评价),这一发现听起来平平无奇,但我们非常清楚地知道,这是一个超越语法并转向语义的时刻。”

关于为何会出现这种涌现行为,文章的作者提出了他的思路:

“情绪作为条件特征可能对语言建模具有很强的预测能力。(It is possible that sentiment as a conditioning feature has strong predictive capability for language modelling.)“

这个思路是典型的达尔文进化思维:

即模型本身有生成各种能力的潜力,当某项能力有利于模型完成任务(完不成的参数被调整,等驾驭被任务淘汰),这项能力就能自发进化出来。

神经网络在训练的时候,采用的随机梯度下降算法,一定程度上等效于物种的基因突变,本质是有一定方向的随机摸索,在强大的生存压力下,错误的摸索被淘汰,久而久之,积累越来越多的正确摸索,某些高层的功能就这么涌现出来了。

这种思路是不同于还原论的,ChatGPT 的出现让很多这个行业的老人困惑:“似乎原理上没有任何创新,为何能力出现巨大提升呢?”“涌现这个词本身就是个模棱两可的词,我并不知道具体的细节,那就是伪科学。”“ChatGPT 具备的推理能力不过是另一种归纳,永远无法替代演绎”。

还原论的思想讲究从底层到高层的逐渐构建,每行代码都有清晰的含义,这样写出来的系统才叫系统,但进化论的思想完全不同,进化论需要构建一个万能生成器,然后建立一个淘汰机制,对万能生成器生成的各种可能进行筛选淘汰,这样进化出来的系统,就能很好的完成任务,至于里面形成的微结构,那并不是重点,甚至都无法用简单的语言描述,因为本身就是全局共同起作用的。

所谓上下文推理,不过就是给定前文,准确给出后文的能力,这其实就是语言模型预训练时候就在做的事情,为了能做到这点,在训练的过程中,各种有助于提高预测能力的高层能力,都会自然而然的进化出来,所谓的高层能力,不过是一种函数,而神经网络本身可以拟合一切函数,同时随机梯度下降,又让神经网络具备了参数自动填充的能力。当然,进化的过程中,神经网络总会尝试找到更好的解法,比如死记硬背,但这些解法往往跟我们预期的解法不一致,这时候任务的合理构建就很重要了,需要巧妙的设计,让我们预期的解法是神经网络进化的唯一解。

其实换个角度想,人为什么有推理能力?人的一切能力也是进化而来的,人的各种生存压力,配合基因的随机突变和大自然的定向筛选,导致推理等能力的出现,换句话说,当推理能力的出现有助于人这个群体生存的时候,这个能力就会出现,跟GPT 涌现的各种能力的原理一样。

不要总拿着还原论思想去看待世界,几百年前,就出现了进化论思想,因为进化论思想没有写进义务教育的教材,导致太多人没有深刻理解这个工具。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4774

    浏览量

    100899
  • 模型
    +关注

    关注

    1

    文章

    3268

    浏览量

    48924
  • ChatGPT
    +关注

    关注

    29

    文章

    1564

    浏览量

    7817

原文标题:为什么ChatGPT模型大了就有上下文联系能力?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中,我们要注意任务
    发表于 12-24 15:03

    如何评估 ChatGPT 输出内容的准确性

    评估 ChatGPT 输出内容的准确性是一个复杂的过程,因为它涉及到多个因素,包括但不限于数据的质量和多样性、模型的训练、上下文的理解、以及输出内容的逻辑一致性。以下是一些评估 ChatGPT
    的头像 发表于 10-25 17:48 612次阅读

    SystemView上下文统计窗口识别阻塞原因

    SystemView工具可以记录嵌入式系统的运行时行为,实现可视化的深入分析。在新发布的v3.54版本中,增加了一项新功能:上下文统计窗口,提供对任务运行时统计信息的深入分析,使用户能够彻底检查每个任务,帮助开发人员识别阻塞原因。
    的头像 发表于 08-20 11:31 452次阅读

    ChatGPT-4o,国产大模型竟然更懂翻译,8款大模型深度测评|AI 横评

    、速度慢、费用高且难以准确理解上下文”的问题。相比之下,AI大模型凭借其强大的学习能力和适应性,在翻译质量、效率、上下文理解和多语言支持等方面表现出色,提供
    的头像 发表于 07-14 08:04 128次阅读
    超<b class='flag-5'>ChatGPT</b>-4o,国产大<b class='flag-5'>模型</b>竟然更懂翻译,8款大<b class='flag-5'>模型</b>深度测评|AI 横评

    鸿蒙Ability Kit(程序框架服务)【应用上下文Context】

    [Context]是应用中对象的上下文,其提供应用的一些基础信息,例如resourceManager(资源管理)、applicationInfo(当前应用信息)、dir(应用文件路径)、area
    的头像 发表于 06-06 09:22 513次阅读
    鸿蒙Ability Kit(程序框架服务)【应用<b class='flag-5'>上下文</b>Context】

    名单公布!【书籍评测活动NO.34】大语言模型应用指南:以ChatGPT为起点,从入门到精通的AI实践教程

    相当于CPU的核心数,而每秒处理的 token数量则相当于 CPU的主频 ,以Hz为单位。这些参数决定模型的计算能力和处理速度。而语言模型上下文
    发表于 06-03 11:39

    OpenAI 深夜抛出王炸 “ChatGPT- 4o”, “她” 来了

    当地时间5月13日OpenAI推出ChatGPT-4o,代表人工智能向前迈出的一大步。在GPT-4turbo的强大基础上,这种迭代拥有显著的改进。在发布会的演示中,OpenAI展示该模型的高级
    发表于 05-27 15:43

    编写一个任务调度程序,在上下文切换后遇到了一些问题求解

    大家好, 我正在编写一个任务调度程序,在上下文切换后遇到了一些问题。 为下一个任务恢复上下文后: __builtin_tricore_mtcr_by_name(\"pcxi\"
    发表于 05-22 07:50

    OpenAI发布GPT-4o模型,支持文本、图像、音频信息,速度提升一倍,价格不变

     此外,该模型还具备128K的上下文记忆能力,知识截止日期设定为2023年10月。微软方面也宣布,已通过Azure OpenAI服务提供GPT-4o的预览版。
    的头像 发表于 05-14 17:12 862次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    的特征,并且这些特征融合这些词在当前序列的上下文语义,因此能够解决一词多义的问题。凭借这种优势,基于动态词向量语言模型进行预训练的方法被广泛应用于自然语言处理任务中。 经典结构
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    维基百科、网页内容和书籍等,不仅掌握语言的语法、语义和上下文信息,还能生成结构连贯、语义合理的句子和段落。大语言模型的一个显著特点是其庞大的参数量,已达数亿甚至数十亿级别。这种规模赋予模型
    发表于 05-04 23:55

    探索ChatGPT模型的人工智能语言模型

    最大的区别ChatGPT是通过对话数据进行预训练,而不仅仅是通过单一的句子进行预训练,这使得ChatGPT能够更好地理解对话的上下文,并进行连贯的回复。
    发表于 04-24 10:19 705次阅读
    探索<b class='flag-5'>ChatGPT</b><b class='flag-5'>模型</b>的人工智能语言<b class='flag-5'>模型</b>

    TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH错误怎么解决?

    我收到EVAL_6EDL7141_TRAP_1SH 3 类(TIN4-Free 上下文列表下溢)上下文管理EVAL_6EDL7141_TRAP_1SH错误。 请告诉我解决这个问题的办法。
    发表于 03-06 08:00

    请问risc-v中断还需要软件保存上下文和恢复吗?

    risc-v中断还需要软件保存上下文和恢复吗?
    发表于 02-26 07:40

    ISR的上下文保存和恢复是如何完成的?

    函数:ifxCPU_enableInterrupts ();如果我让更高优先级的 ISR 中断优先级较低的 ISR,那么 ISR 的上下文保存和恢复是如何完成的?
    发表于 01-22 06:28