国产大模型DeepSeek推出DeepSeek-V3-电子发烧友网

众所周知，过去一年间，大语言模型(LLM)领域经历了翻天覆地的变化...

回望2023年底，OpenAI的GPT-4还是一座难以逾越的高峰，其他AI实验室都在思考同一个问题：OpenAI究竟掌握了哪些独特的技术秘密？

一年后的今天，形势已发生根本性转变，据Chatbot Arena排行榜显示，原始版本的GPT-4（GPT-4-0314）已跌至第70位左右。目前，已有18家机构的70个模型在性能上超越了这个曾经的标杆。

图源：Chatbot Arena

随着2025年的崭新启航，是否意味着AI圈的一颗“王炸”已悄然“引爆”？

近日，国产大模型DeepSeek推出DeepSeek-V3，一个强大的混合专家（Mixture-of-Experts, MoE）语言模型，DeepSeek-V3拥有高达6710亿的参数规模，但每次推理仅激活370亿参数。

尤其，当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时， DeepSeek-V3用557.6万美元的预算，在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间，就达到了足以与它们比肩的性能。

与此同时，DeepSeek-V3相比其他前沿大模型，性能却足以比肩乃至更优。

DeepSeek-V3与其他大模型性能对比

其中，这种设计使得模型在性能和效率上实现了完美平衡，在多项模型测评中，DeepSeek-V3不仅超越了Llama 3.1 405B等顶级开源模型，更在代码、数学、长文本处理等领域，与GPT-4o和Claude 3.5 Sonnet等闭源模型分庭抗礼。

其次，通过671B的总参数量，在每个token激活37B参数的精准控制下，DeepSeek-V3用14.8万亿高质量多样化token，构建出了一个能够超越所有开源模型，直逼GPT-4和Claude-3.5的AI巨人。

另外，在基础理解能力测试中，DeepSeek-V3与Claude-3.5模型面对中文脑筋急转弯“小明的妈妈有三个孩子”的问题，DeepSeek V3表现出色，不仅答对还进行了自我验证。但在英文双关语“April Fool's Day”的测试中则略显不足，未能理解其中的语言巧思，而Claude3.5Sonnet则轻松应对。

DeepSeek-V3与Claude-3.5实测对比

除此之外，DeepSeek自言，这得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构，实现了高效的推理和经济高效的训练。

Multi-head Latent Attention (MLA)：MLA 通过对注意力键和值进行低秩联合压缩，减少了推理时的 KV 缓存，同时保持了与标准多头注意力（MHA）相当的性能。

DeepSeek-V3 的核心亮点

DeepSeekMoE：DeepSeekMoE 采用了更细粒度的专家分配策略，每个 MoE 层包含 1 个共享专家和 256 个路由专家，每个令牌激活 8 个专家，确保了计算的高效性。

因此，在系统架构层面，DeepSeek就使用了专家并行训练技术，通过将不同的专家模块分配到不同的计算设备上同时进行训练，提升了训练过程中的计算效率。

DeepSeek探索出一个精妙的解决策略，不等到最后再算总和，而是每加128个数就把当前结果转移到科学计算器上继续计算。其过程不影响速度，此技术利用了H800 GPU的特点：就像有两个收银员，当一个在结算购物篮的同时，另一个便可继续扫描新商品。

这一策略使得模型训练速度大幅提升，毕竟核心计算能提升100%的速度，而显存使用减少也非常明显，并且模型最终的效果精度损失能做到小于0.25%，几乎无损。

DeepSeek 提出的误差积累解决方法

但由于DeepSeek“大方”开源，Open AI水灵灵地被网友cue进行横向对比，有一种被push的支配感。

Scale AI创始人亚历山大·王 (Alexander Wang)更表示，DeepSeek-V3带来的辛酸教训是：当美国休息时，中国在工作，以更低的成本、更快的速度迎头赶上，变得更强。

图源：X平台

简言之，这种剧变深刻折射出AI领域的变革。在2023年，超越GPT-4还是一个值得载入史册的重大突破，转眼至2024年，这一成就已然演变为衡量顶级AI模型的基准线。

而刚到来的2025年，DeepSeek用行动说明，中国大模型创业者，共同参与这场全球创新AI竞赛中。

由于篇幅受限，本次的DeepSeek V3就先介绍这么多......

想了解更多半导体行业动态，请您持续关注我们。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
3368

浏览量
42567
LLM

LLM

+关注

关注
0

文章
293

浏览量
352

原文标题：DeepSeek-V3横空出世，GPT-4时代终结？

文章出处：【微信号：奇普乐芯片技术，微信公众号：奇普乐芯片技术】欢迎添加关注！文章转载请注明出处。

谈谈DeepSeek-v3提到的基础设施演进

看DeepSeek-v3的感受是, 算法和Infra的非常紧密结合. 其实很多大模型团队的算法和Infra是非常割裂的, 完全同时懂算法和Infra的人并不多, DeepSeek这个团队就是其中之一

发表于 01-02 10:04 •148次阅读

谈谈<b class='flag-5'>DeepSeek-v3</b>提到的基础设施演进

雷军千万年薪挖角95后AI天才少女 DeepSeek开源大模型DeepSeek-V2关键开发者之一罗福莉

95后AI“天才少女”刷屏;原因是雷军千万年薪挖角。人工智能时代最贵的依然是人才！这位 95后AI“天才少女”是DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉。罗福莉本科

发表于 12-30 10:58 •441次阅读

国产大模型发展的经验与教训

本文介绍大模型的计算特征（国产平台介绍、系统挑战、算子实现、容错）、框架的并行性支持、未来算法等。随着ChatGPT的横空出世，人工智能大模型成为各行各业热议的焦点，国内外各种大模型

发表于 11-11 11:39 •269次阅读

中国AI企业创新降低成本打造竞争力模型

在中国，面对美国实施的芯片限制以及相较于西方企业更为有限的预算，人工智能（AI）公司正积极寻求降低成本的方法，以开发出具有市场竞争力的模型。初创公司如01.ai（零一万物）和DeepSeek（深度求索）等，通过聚焦小数据集进行AI模型

发表于 10-22 14:56 •463次阅读

零一万物正式开源Yi-Coder系列模型 PerfXCloud火速支持等你体验！

今日，零一万物宣告正式开源Yi-Coder系列模型:Yi-Coder 1.5B和Yi-Coder 9B，PerfXCloud（澎峰云）大模型开发与服务平台第一时间支持并在平台完成上线，赶快来体验吧

发表于 09-05 16:07 •360次阅读

PerfXCloud顺利接入MOE大模型DeepSeek-V2

今日，在 PerfXCloud 重磅更新支持 llama 3.1 之后，其平台再度实现重大升级！目前，已顺利接入被誉为全球最强的 MOE 大模型 DeepSeek-V2 ，已在 PerfXCloud（澎峰云）官网的体验中心对平台用户免费开放体验。

发表于 07-27 10:08 •655次阅读

大模型发展下，国产GPU的机会和挑战

电子发烧友网站提供《大模型发展下，国产GPU的机会和挑战.pdf》资料免费下载

发表于 07-18 15:44 •10次下载

斯坦福团队抄袭国产大模型，主要责任人失联

电子发烧友网报道（文/吴子鹏）近日，斯坦福大学AI团队主导的Llama3-V开源模型被证实套壳抄袭国内清华与面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5。该事件

发表于 06-05 00:10 •2608次阅读

国产RISC-V芯片性能稳定吗？

想使用国产的RISC-V架构的芯片做无人机投送快递的方案，可行性高吗？国产的RISC-V MCU稳定么？

发表于 05-20 15:43

Meta推出最强开源模型Llama 3 要挑战GPT

Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms（META.US）推出了开源AI大模型

发表于 04-19 17:00 •850次阅读

国产GPU在AI大模型领域的应用案例一览

不断推出新品，产品也逐渐在各个领域取得应用，而且在大模型的训练和推理方面，也有所建树。国产GPU在大模型上的应用进展电子发烧友此前就统计过目前国内主要的GPU厂商，也介绍了

发表于 04-01 09:28 •3886次阅读

Stability AI推出全新Stable Video 3D模型

近日，Stability AI 推出了全新的 Stable Video 3D 模型，该模型以其独特的功能吸引了众多关注。此模型具备从单张图像

发表于 03-22 10:30 •873次阅读

字节跳动辟谣推出中文版Sora 期待国产Sora大模型

字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆，大家都在期待国产的大

发表于 02-21 17:29 •872次阅读

科大讯飞发布“讯飞星火V3.5”：基于全国产算力训练的全民开放大模型

科大讯飞，作为中国领先的智能语音和人工智能公司，近日宣布推出首个基于全国产算力训练的全民开放大模型“讯飞星火V3.5”。

发表于 02-04 11:28 •1533次阅读

科大讯飞发布星火认知大模型V3.5

科大讯飞近日发布了星火认知大模型V3.5版本，该版本基于全国产化算力底座“飞星一号”平台进行训练。与讯飞星火V3.0相比，V3.5在逻辑推理

发表于 01-31 14:40 •918次阅读