0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国产大模型DeepSeek推出DeepSeek-V3

奇普乐芯片技术 来源:奇普乐芯片技术 2025-01-06 10:51 次阅读

众所周知,过去一年间,大语言模型(LLM)领域经历了翻天覆地的变化...

回望2023年底,OpenAI的GPT-4还是一座难以逾越的高峰,其他AI实验室都在思考同一个问题:OpenAI究竟掌握了哪些独特的技术秘密?

一年后的今天,形势已发生根本性转变,据Chatbot Arena排行榜显示,原始版本的GPT-4(GPT-4-0314)已跌至第70位左右。目前,已有18家机构的70个模型在性能上超越了这个曾经的标杆。

00783262-c9b5-11ef-9310-92fbcf53809c.jpg

图源:Chatbot Arena

随着2025年的崭新启航,是否意味着AI圈的一颗“王炸”已悄然“引爆”?

近日,国产大模型DeepSeek推出DeepSeek-V3,一个强大的混合专家(Mixture-of-Experts, MoE)语言模型,DeepSeek-V3拥有高达6710亿的参数规模,但每次推理仅激活370亿参数。

尤其,当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时, DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间,就达到了足以与它们比肩的性能 。

与此同时,DeepSeek-V3相比其他前沿大模型,性能却足以比肩乃至更优。

00c6b108-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek-V3与其他大模型性能对比

其中,这种设计使得模型在性能和效率上实现了完美平衡,在多项模型测评中,DeepSeek-V3不仅超越了Llama 3.1 405B等顶级开源模型,更在代码、数学、长文本处理等领域,与GPT-4o和Claude 3.5 Sonnet等闭源模型分庭抗礼。

其次,通过671B的总参数量,在每个token激活37B参数的精准控制下,DeepSeek-V3用14.8万亿高质量多样化token,构建出了一个能够超越所有开源模型,直逼GPT-4和Claude-3.5的AI巨人。

另外,在基础理解能力测试中,DeepSeek-V3与Claude-3.5模型面对中文脑筋急转弯“小明的妈妈有三个孩子”的问题,DeepSeek V3表现出色,不仅答对还进行了自我验证。但在英文双关语“April Fool's Day”的测试中则略显不足,未能理解其中的语言巧思,而Claude3.5Sonnet则轻松应对。

00daead8-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek-V3与Claude-3.5实测对比

除此之外,DeepSeek自言,这得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。

Multi-head Latent Attention (MLA):MLA 通过对注意力键和值进行低秩联合压缩,减少了推理时的 KV 缓存,同时保持了与标准多头注意力(MHA)相当的性能。

00f34c36-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek-V3 的核心亮点

DeepSeekMoE:DeepSeekMoE 采用了更细粒度的专家分配策略,每个 MoE 层包含 1 个共享专家和 256 个路由专家,每个令牌激活 8 个专家,确保了计算的高效性。

因此,在系统架构层面,DeepSeek就使用了专家并行训练技术,通过将不同的专家模块分配到不同的计算设备上同时进行训练,提升了训练过程中的计算效率。

DeepSeek探索出一个精妙的解决策略,不等到最后再算总和,而是每加128个数就把当前结果转移到科学计算器上继续计算。其过程不影响速度,此技术利用了H800 GPU的特点:就像有两个收银员,当一个在结算购物篮的同时,另一个便可继续扫描新商品

这一策略使得模型训练速度大幅提升,毕竟核心计算能提升100%的速度,而显存使用减少也非常明显,并且模型最终的效果精度损失能做到小于0.25%,几乎无损。

010b5dee-c9b5-11ef-9310-92fbcf53809c.jpg

DeepSeek 提出的误差积累解决方法

但由于DeepSeek“大方”开源,Open AI水灵灵地被网友cue进行横向对比,有一种被push的支配感。

Scale AI创始人亚历山大·王 (Alexander Wang)更表示,DeepSeek-V3带来的辛酸教训是:当美国休息时,中国在工作,以更低的成本、更快的速度迎头赶上,变得更强。

011e0156-c9b5-11ef-9310-92fbcf53809c.jpg

图源:X平台

简言之,这种剧变深刻折射出AI领域的变革。在2023年,超越GPT-4还是一个值得载入史册的重大突破,转眼至2024年,这一成就已然演变为衡量顶级AI模型的基准线。

而刚到来的2025年,DeepSeek用行动说明,中国大模型创业者,共同参与这场全球创新AI竞赛中。

由于篇幅受限,本次的DeepSeek V3就先介绍这么多......

想了解更多半导体行业动态,请您持续关注我们。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3368

    浏览量

    42567
  • LLM
    LLM
    +关注

    关注

    0

    文章

    293

    浏览量

    352

原文标题:DeepSeek-V3横空出世,GPT-4时代终结?

文章出处:【微信号:奇普乐芯片技术,微信公众号:奇普乐芯片技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谈谈DeepSeek-v3提到的基础设施演进

    DeepSeek-v3的感受是, 算法和Infra的非常紧密结合. 其实很多大模型团队的算法和Infra是非常割裂的, 完全同时懂算法和Infra的人并不多, DeepSeek这个团队就是其中之一
    的头像 发表于 01-02 10:04 148次阅读
    谈谈<b class='flag-5'>DeepSeek-v3</b>提到的基础设施演进

    雷军千万年薪挖角95后AI天才少女 DeepSeek开源大模型DeepSeek-V2关键开发者之一罗福莉

    95后AI“天才少女”刷屏;原因是雷军千万年薪挖角。人工智能时代最贵的依然是人才! 这位 95后AI“天才少女”是DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉。 罗福莉本科
    的头像 发表于 12-30 10:58 441次阅读

    国产模型发展的经验与教训

        本文介绍大模型的计算特征(国产平台介绍、系统挑战、算子实现、容错)、框架的并行性支持、未来算法等。 随着ChatGPT的横空出世,人工智能大模型成为各行各业热议的焦点,国内外各种大模型
    的头像 发表于 11-11 11:39 269次阅读
    <b class='flag-5'>国产</b>大<b class='flag-5'>模型</b>发展的经验与教训

    中国AI企业创新降低成本打造竞争力模型

    在中国,面对美国实施的芯片限制以及相较于西方企业更为有限的预算,人工智能(AI)公司正积极寻求降低成本的方法,以开发出具有市场竞争力的模型。初创公司如01.ai(零一万物)和DeepSeek(深度求索)等,通过聚焦小数据集进行AI模型
    的头像 发表于 10-22 14:56 463次阅读

    零一万物正式开源Yi-Coder系列模型 PerfXCloud火速支持等你体验!

    今日,零一万物宣告正式开源Yi-Coder系列模型:Yi-Coder 1.5B和Yi-Coder 9B,PerfXCloud(澎峰云)大模型开发与服务平台第一时间支持并在平台完成上线,赶快来体验吧
    的头像 发表于 09-05 16:07 360次阅读
    零一万物正式开源Yi-Coder系列<b class='flag-5'>模型</b> PerfXCloud火速支持等你体验!

    PerfXCloud顺利接入MOE大模型DeepSeek-V2

    今日,在 PerfXCloud 重磅更新支持 llama 3.1 之后,其平台再度实现重大升级!目前,已顺利接入被誉为全球最强的 MOE 大模型 DeepSeek-V2 ,已在 PerfXCloud(澎峰云)官网的体验中心对平台用户免费开放体验。
    的头像 发表于 07-27 10:08 655次阅读
    PerfXCloud顺利接入MOE大<b class='flag-5'>模型</b><b class='flag-5'>DeepSeek-V</b>2

    模型发展下,国产GPU的机会和挑战

    电子发烧友网站提供《大模型发展下,国产GPU的机会和挑战.pdf》资料免费下载
    发表于 07-18 15:44 10次下载
    大<b class='flag-5'>模型</b>发展下,<b class='flag-5'>国产</b>GPU的机会和挑战

    斯坦福团队抄袭国产模型,主要责任人失联

    电子发烧友网报道(文/吴子鹏)近日,斯坦福大学AI团队主导的Llama3-V开源模型被证实套壳抄袭国内清华与面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5。该事件
    的头像 发表于 06-05 00:10 2608次阅读

    国产RISC-V芯片性能稳定吗?

    想使用国产的RISC-V架构的芯片做无人机投送快递的方案,可行性高吗?国产的RISC-V MCU稳定么?
    发表于 05-20 15:43

    Meta推出最强开源模型Llama 3 要挑战GPT

    Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms(META.US)推出了开源AI大模型
    的头像 发表于 04-19 17:00 850次阅读

    国产GPU在AI大模型领域的应用案例一览

    不断推出新品,产品也逐渐在各个领域取得应用,而且在大模型的训练和推理方面,也有所建树。   国产GPU在大模型上的应用进展   电子发烧友此前就统计过目前国内主要的GPU厂商,也介绍了
    的头像 发表于 04-01 09:28 3886次阅读
    <b class='flag-5'>国产</b>GPU在AI大<b class='flag-5'>模型</b>领域的应用案例一览

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张图像
    的头像 发表于 03-22 10:30 873次阅读

    字节跳动辟谣推出中文版Sora 期待国产Sora大模型

    字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆,大家都在期待国产的大
    的头像 发表于 02-21 17:29 872次阅读

    科大讯飞发布“讯飞星火V3.5”:基于全国产算力训练的全民开放大模型

    科大讯飞,作为中国领先的智能语音和人工智能公司,近日宣布推出首个基于全国产算力训练的全民开放大模型“讯飞星火V3.5”。
    的头像 发表于 02-04 11:28 1533次阅读

    科大讯飞发布星火认知大模型V3.5

    科大讯飞近日发布了星火认知大模型V3.5版本,该版本基于全国产化算力底座“飞星一号”平台进行训练。与讯飞星火V3.0相比,V3.5在逻辑推理
    的头像 发表于 01-31 14:40 918次阅读