0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI圈巨震!微软论文声称ChatGPT是20B(200亿)参数量的模型?

CVer 来源:新智元 2023-11-01 16:23 次阅读

【导读】微软最近一篇论文爆料,GPT-3.5的参数量只有20B,远远小于之前GPT-3公布175B。网友表示,ChatGPT能力似乎「配得上」这个体量?

GPT-3.5只有200亿参数?

今天,大模型圈都被微软论文中的一纸截图刷爆了,究竟是怎么回事?

就在前几天,微软发表了篇论文并挂在了arXiv上,该论文提出了一个参数量只有75M的小规模扩散模型——CodeFusion。

性能方面,7500万参数的CodeFusion在top-1准确率指标上,可以与最先进的350M-175B模型相媲美。

fc683000-785c-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/abs/2310.17680

这篇论文的工作很有意义,但引起大家格外注意的却是——

作者在对比ChatGPT(gpt-3.5-turbo)时,标称的参数量竟然只有20B!

fc77aca6-785c-11ee-939d-92fbcf53809c.png

在此之前,大家针对GPT-3.5参数量的猜测都是1750亿,这相当于是缩减了差不多十倍!

fc8a2fac-785c-11ee-939d-92fbcf53809c.png

根据这篇论文的爆料,网友还去维基百科上更新了GPT-3.5的介绍,直接把参数大小改成了20B。

消息一出,直接登上知乎热搜,网友们都炸了。

fca5c104-785c-11ee-939d-92fbcf53809c.png

有人表示,赶紧回头再把我之前模型蒸馏的博文拿出来复习复习 。

fcb0865c-785c-11ee-939d-92fbcf53809c.png

是「乌龙」还是「事实」?

网友的爆料贴一出,瞬间就引发了激烈的讨论。

目前,已经有超过68万人前来围观。

fcbf4048-785c-11ee-939d-92fbcf53809c.png

这位老哥表示,论文的几位作者也都在用推特,估计过不了多久就会亲自下场解释。

fcca9e5c-785c-11ee-939d-92fbcf53809c.png

而对于这个神秘的「20B」,网友们也是众说纷纭。

fcdd2298-785c-11ee-939d-92fbcf53809c.png

有人猜测,这很可能是作者手误打错了。比如原本是120B,或者200B。

fceadfd2-785c-11ee-939d-92fbcf53809c.png

结合现实中的各项评测来看,确实有很多小模型能够取得和ChatGPT差不多的成绩,比如Mistral-7B。

fcf5aa3e-785c-11ee-939d-92fbcf53809c.png

也许,这也是侧面证实了GPT-3.5体量真的不大。

fcffd162-785c-11ee-939d-92fbcf53809c.png

很多网友也认为20B的参数可能是准确的,纷纷发出感叹:

「这也太难以想象了!Falcon-180B和Llama2-70B,竟然都无法击败这款20B的模型。」

fd15eb00-785c-11ee-939d-92fbcf53809c.png

也有网友认为,gpt-3.5-turbo是精炼版的gpt-3.5。

而这次参数的「泄露」,正好从侧面印证了那些关于gpt-3.5-turbo表现不如旧版gpt-3.5的传言。

fd20504a-785c-11ee-939d-92fbcf53809c.png

不过,根据OpenAI的官方文档,除了已经不再使用的text-davinci和code-davinci,GPT-3.5家族全员都是基于gpt-3.5-turbo构成的。

fd2a28fe-785c-11ee-939d-92fbcf53809c.png

fd3462c4-785c-11ee-939d-92fbcf53809c.png

fd473494-785c-11ee-939d-92fbcf53809c.png

微软发布CodeFusion

而爆出GPT3.5只有20B参数的微软论文,是想介绍一个用于代码生成的扩散模型。

研究人员针对Bash、Python和Microsoft Excel条件格式(CF)规则的自然语言生成代码的任务来评估这个模型——CodeFusion。

实验表明,CodeFusion(只有75M参数)在top-1精度方面与最先进的LLM(350M-175B参数)相当,并且在top-3和top-5精度方面性能和参数比非常优秀。

fd52e794-785c-11ee-939d-92fbcf53809c.png

模型架构CODEFUSION用于代码生成任务,它的训练分为两个阶段,第一阶段是无监督预训练,第二阶段是有监督微调。

fd5d9748-785c-11ee-939d-92fbcf53809c.png

在第一阶段,CODEFUSION使用未标记的代码片段来训练降噪器和解码器。它还使用可训练的嵌入层L,将代码片段嵌入到连续空间中。

在第二阶段,CODEFUSION进行有监督的微调,使用来自文本-代码对数据。在这个阶段,编码器、降噪器和解码器都会得到调整,以更好地执行任务。

此外,CODEFUSION还借鉴了之前有关文本扩散的研究成果,将来自解码器的隐藏表示D融合到模型中。这是为了改进模型的性能。在训练过程中,在不同step中,模型引入一些噪声,然后计算损失函数,以确保生成的代码片段更符合预期的标准。

总之,CODEFUSION是一个执行代码生成工作的小模型,通过两个阶段的训练和噪声引入来不断提升其性能。这个模型的灵感来自于文本扩散的研究,并通过融合解码器的隐藏表示来改进损失函数,以更好地生成高质量的代码片段。

评估结果

下表总结了CODEFUSION模型与各个基线模型在top-1、top-3和top-5设置下的性能表现。

在top-1中,CODEFUSION的性能与自回归模型相媲美,甚至在某些情况下表现更出色,尤其是在Python任务中,只有GPT-3(175B)的性能稍微优于CODEFUSION(75M)。然而,在top-3和top-5方面,CODEFUSION明显优于所有基线模型。

fd7e7cec-785c-11ee-939d-92fbcf53809c.png

表下表展示了CODEFUSION和自回归模型(包括T5、CodeT5、StarCoder、CodeGen、GPT-3)在各项基准任务上的平均多样性结果,考察了每个模型的前5代生成结果。

相对于自回归模型,CODEFUSION生成更加多样化的结果,表现更出色。

fd897d68-785c-11ee-939d-92fbcf53809c.png

在消融实验中,作者停止了去噪过程,并生成了在时间步t∈[0, T]范围内的当前状态的代码片段。利用归一化字符串编辑距离来衡量每个时间步长(每100步为一个增量)所获得的结果。

这一方法有助于总结和展示CODEFUSION模型的逐步进展,如下图所示。

fd96984a-785c-11ee-939d-92fbcf53809c.png

说了这么多,GPT-3.5的参数量到底是多少?GPT-4与GPT-3.5在技术和其他方面有着什么样的联系?

GPT-3.5是一个个小专家模型的集成还是一个通才模型?是通过更大模型的蒸馏还是更大数据训练?

这些问题的答案只能等到真正开源的时候才能揭晓了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    27605

    浏览量

    265208
  • 模型
    +关注

    关注

    1

    文章

    2887

    浏览量

    48082
  • ChatGPT
    +关注

    关注

    28

    文章

    1496

    浏览量

    5937

原文标题:AI圈巨震!微软论文声称ChatGPT是20B(200亿)参数量的模型?

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    微软发布视觉型AI模型:Phi-3-vision

     据悉,Phi-3-vision 作为微软 Phi-3 家族的首款多模态模型,继承自 Phi-3-mini 的文本理解能力,兼具轻巧便携特性,适用于移动平台/嵌入式终端;模型参数规模达
    的头像 发表于 05-27 15:56 260次阅读

    微软将推出自研AI模型

    微软正在紧锣密鼓地训练一款全新的自研人工智能大模型——“MAI-1”。据悉,这款模型规模庞大,足以与谷歌的Gemini和OpenAI的ChatGPT相媲美。
    的头像 发表于 05-13 11:30 466次阅读

    新火种AI|正面硬刚OpenAI与谷歌?微软竟然偷偷自研出5000亿参数模型

    The Information 5月6日的报道,微软公司即将推出一款全新的AI模型产品,内部代号为MAI-1,其参数数量达到了惊人的5000亿
    的头像 发表于 05-11 11:47 402次阅读
    新火种<b class='flag-5'>AI</b>|正面硬刚OpenAI与谷歌?<b class='flag-5'>微软</b>竟然偷偷自研出5000<b class='flag-5'>亿</b><b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>!

    微软自研5000亿参数模型曝光

    微软近日曝光了其内部正在秘密研发的巨型AI模型——MAl-1,这款模型拥有惊人的5000亿参数
    的头像 发表于 05-08 09:56 266次阅读

    微软MSN天气服务引入全新AI模型

    微软在天气预测领域取得了突破性的进展,为MSN天气服务引入了全新的AI预测模型。该模型微软Start团队精心研发,并基于他们在arXiv上
    的头像 发表于 05-07 09:25 274次阅读

    通义千问推出1100亿参数开源模型

    通义千问近日震撼发布1100亿参数的开源模型Qwen1.5-110B,这一举措标志着通义千问在AI领域迈出了重大步伐。该
    的头像 发表于 05-06 10:49 364次阅读

    软银追加1500亿日元,加速AI模型开发进程

    据了解,软银目前已经在生成式AI算力基础设施方面投资了200亿日元(约合9.36亿元人民币),预计将进一步加大投入,力求在本年度内打造出参数
    的头像 发表于 04-23 16:09 292次阅读

    微软支付6.5亿美元获得Inflection AIAI模型授权

    微软近日宣布向人工智能初创公司Inflection AI支付高达6.5亿美元的巨额资金,这一举动在业内引起了广泛关注。据悉,这笔资金主要用于获得Inflection AI
    的头像 发表于 03-25 10:39 319次阅读

    蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

    近日,蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁集团的
    的头像 发表于 03-04 11:22 441次阅读

    微软21亿美元投资法国AI公司Mistral AI

    微软近日宣布向法国人工智能公司Mistral AI注资20亿欧元(约合21亿美元),以推动生成式人工智能领域的发展。此举不仅加强了
    的头像 发表于 02-28 10:08 290次阅读

    ChatGPT原理 ChatGPT模型训练 chatgpt注册流程相关简介

    ChatGPT注册没有外国手机号验证怎么办? ChatGPT作为近期火爆网络的AI项目,受到了前所未有的关注。我们可以与AI机器人实时聊天,获得问题的答案。但受
    的头像 发表于 12-06 16:28 556次阅读
    <b class='flag-5'>ChatGPT</b>原理 <b class='flag-5'>ChatGPT</b><b class='flag-5'>模型</b>训练 <b class='flag-5'>chatgpt</b>注册流程相关简介

    微软内部禁止员工使用ChatGPT

    近期消息报道,微软内部禁止员工使用OpenAI产品ChatGPT。最新的微软内部网站消息显示,:“出于安全和数据方面的考虑,许多AI工具不再供员工使用。”
    的头像 发表于 11-10 15:39 702次阅读

    盘古大模型ChatGPT模型基础架构

    华为盘古大模型以Transformer模型架构为基础,利用深层学习技术进行训练。模型的每个数量达到2.6亿个,是目前世界上最大的汉语预备训练
    的头像 发表于 09-05 09:55 1787次阅读

    盘古大模型参数量有多少

    获得专业级的语言处理能力。该模型是目前最大的中文预训练语言模型,其参数量超过2.6十亿,实现了对超过60亿字的语料库的理解和生成。 该模型
    的头像 发表于 08-17 11:28 2380次阅读

    如何计算transformer模型参数量

    参数规模大,训练数据规模大。以GPT3为例,GPT3的参数量为1750亿,训练数据量达到了570GB。进而,训练大规模语言模型面临两个主要挑战:显存效率和计算效率。 现在业界的大语言
    的头像 发表于 07-10 09:13 9718次阅读
    如何计算transformer<b class='flag-5'>模型</b>的<b class='flag-5'>参数量</b>