传DeepSeek自研芯片，厂商们要把AI成本打下来-电子发烧友网

电子发烧友网报道（文/黄晶晶）日前业界消息称，DeepSeek正广泛招募芯片设计人才，加速自研芯片布局，其芯片应用于端侧或云侧尚不明朗。不少科技巨头已有自研芯片的动作，一方面是自研芯片能够节省外购芯片的成本，掌握供应链主动权，另一方面随着AI推理应用的爆发，AI推理芯片有机会被重新定义。

DeepSeek不完全依赖英伟达

去年12月底发布的DeepSeek-V3模型，整个训练使用2048块英伟达H800 GPU。H800是英伟达特供中国显卡，相较于它的旗舰芯片H100降低了部分性能。也就是说DeepSeek-V3模型的训练并不需要追求使用最尖端的GPU。

DeepSeek在训练过程中采用了多种方法来优化硬件利用效率。例如，通过绕过CUDA编程框架，直接使用英伟达的中间指令集框架Parallel Thread Execution (PTX)，DeepSeek能够更高效地利用硬件资源，提供更细粒度的操作控制，从而避免由于CUDA的通用性导致的训练灵活性损失。这种做法使得DeepSeek能够在五天内完成其他模型需要十天才能完成的训练任务，极大地提高了训练效率。

DeepSeek的V3和R1大模型得到了不少芯片厂商的适配。如1月25日AMD宣布将DeepSeek-V3模型集成到其Instinct MI300X GPU上。而适配DeepSeek-R1大模型的厂商包括英伟达、英特尔以及国内厂商昇腾、龙芯、摩尔线程、海光信息等等。而采用这些芯片所获得的DeepSeek-R1模型推理性能不亚于英伟达GPU的效果。

DeepSeek有着对架构更深层次的理解，如若自研芯片，发挥其软硬件结合的能力，那么研发更具性价比的训练或推理芯片，进一步降低成本，或许将在更大程度上促进端侧AI的应用爆发，以及带动AI芯片的多样性发展。

OpenAI 3nm 推理芯片

去年，OpenAI进行硬件战略调整，旨在优化计算资源和降低成本。OpenAI将引入AMD的MI300系列芯片，并继续使用英伟达的GPU。而其自研芯片也提上日程。去年10月，OpenAI与芯片制造商博通合作开发首款专注于推理的人工智能芯片。双方还在与台积电进行磋商，以推进这一项目。

据外媒最新报道OpenAI 将在未来几个月内完成其首款内部芯片的设计，并计划将其送往台积电制造，台积电将使用 3nm 技术制造 OpenAI 芯片，该芯片有望在 2025 年底进行测试以及在 2026 年开始大规模生产，预计该芯片将具有“高带宽内存”和“广泛的网络功能”。

根据机构测算，到2028年人工智能的推理负载占比有望达到85%，考虑到云端和边缘侧巨大的推理需求，未来推理芯片的预期市场规模将是训练芯片的4～6倍。OpenAI自研推理芯片正好赶上这波人工智能推理应用的全面爆发。

亚马逊3nm制程Trainium3芯片
实际上，为了摆脱对英伟达GPU的依赖，亚马逊、微软和 Meta 等科技巨头也开始自研芯片。

去年12月，亚马逊 AWS 宣布，基于其内部团队所开发 AI 训练芯片 Trainium2 的 Trn2 实例广泛可用，并推出了 Trn2 UltraServer 大型 AI 训练系统，同时还发布了下代更先进的 3nm 制程 Trainium3 芯片。

单个 Trn2 实例包含 16 颗 Trainium2 芯片，各芯片间采用超高速高带宽低延迟 NeuronLink 互联，可提供 20.8 petaflops 的峰值算力，适合数 B 参数大小模型的训练和部署。

而亚马逊 AWS下代 Trainium3 AI 训练芯片，是 AWS 首款采用 3nm 制程的芯片产品。亚马逊表示基于 Trainium3 的 UltraServer 性能可达 Trn2 UltraServer 的 4 倍，首批基于 Trainium3 的实例预计将于2025年底推出。

LPU语言处理单元

在AI推理大潮下，Groq公司开发的语言处理单元（Language Processing Unit，即LPU），以其独特的架构，带来了极高的推理性能的表现。

Groq的芯片采用14nm制程，搭载了230MB SRAM以保证内存带宽，片上内存带宽达80TB/s。在算力方面，该芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度为188TFLOPs。

在Llama 2-70B推理任务中，LPU系统实现每秒近300 token的吞吐量，相较英伟达H100实现10倍性能提升，单位推理成本降低达80%。在Llama 3.1-8B推理任务中，LPU系统实现每秒736 token的吞吐量。

图源：Groq官网

公开信息显示，LPU的运作方式与GPU不同，它使用时序指令集计算机（Temporal Instruction Set Computer）架构，与GPU使用的SIMD（单指令，多数据）不同。这种设计可以让芯片不必像GPU那样频繁地从HBM内存重载数据。并避免了HBM短缺的问题，从而降低成本。

在能效方面，LPU 通过减少多线程管理的开销和避免核心资源的未充分利用，实现了更高的每瓦特计算性能，在执行推理任务时，从外部内存读取的数据更少，消耗的电量也低于英伟达的GPU。

LPU的推出为AI推理芯片带来了新的思路，但不得不说的是，Groq LPU芯片的成本相对较高，主要是购卡成本和运营成本。若以大模型运行吞吐量来计算，同等数据条件下，Groq LPU的硬件成本价格不菲。尽管这一芯片的性能表现突出，但对于成本优化还需要做出很多努力。希望随着硬件技术、生产制造以及规模效应的逐步成熟，其应用成本有望得到改善。

DeepSeek的出现，以低成本特性降低了企业准入门槛，使更多企业能够开展 AI 项目，推理端需求大幅增长。但这还不够，要使AI训练或推理成本进一步下探，不再局限于采用某一家的GPU，而是SoC、ASIC、FPGA等芯片都有机会，一些新的技术架构、不依赖先进工艺的芯片等有更多发展的空间，从而推动AI芯片的多元化发展。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

DeepSeek

DeepSeek

+关注

关注
1

文章
658

浏览量
501

科通技术推出DeepSeek+AI芯片全场景方案

2025年，随着DeepSeek新版本的开源，AI技术掀起了全球普及的浪潮。在这股浪潮中，AI芯片作为关键算力支撑，其应用场景不断拓展，从云端到本地，再到终端设备，

发表于 03-24 10:33 •30次阅读

EVASH芯片公司接入DeepSeek：AI驱动的芯片设计革新

EVASH芯片公司接入DeepSeek：AI驱动的芯片设计革新

发表于 03-03 17:45 •176次阅读

今日看点丨小鹏自研芯片或5月上车；安森美将在重组期间裁员2400人

车型，该车将是搭载自研芯片的首款车型，内部代号或为“F57”。去年8月27日，小鹏汽车召开发布会，正式发布了其自研

发表于 02-26 10:55 •115次阅读

DeepSeek、晶振在AI终端中的相关应用

国产AI大模型DeepSeek崛起，2025年1月27日，DeepSeek应用登顶苹果美国地区、中国区应用商店免费APP下载排行榜凭借开源、极具成本优势、高性能已成为全球现象级模型。

发表于 02-19 14:44 •326次阅读

研华发布昇腾AI Box及Deepseek R1模型部署流程

。这一举措标志着研华在AI边缘计算领域迈出了重要一步。研华边缘AI Box MIC-ATL3S依托昇腾芯片的强大异构计算能力，结合

发表于 02-19 10:41 •264次阅读

添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

在 AI 技术日新月异的当下，新的模型与突破不断涌现。近期，DeepSeek（深度求索）模型以其卓越性能和亲民成本，迅速在全球开发者圈子里引发热议。作为一款强大的语言模型，DeepSeek

发表于 02-14 17:42

研华边缘AI Box MIC-ATL3S部署Deepseek R1模型

随着深度求索(DeepSeek)大模型的发布引发行业热议，研华科技基于昇腾Atlas平台边缘AI Box MIC-ATL3S正式发布与Deepseek R1模型的部署流程。该平台依托昇

发表于 02-14 16:08 •666次阅读

研华WISE-AI Agent借助DeepSeek引领企业级AI全新范式

本期导读研华WISE-AI Agent平台结合DeepSeek大模型，通过Edge AI技术将AI推理能力下沉至边缘设备，助力工业企业实现

发表于 02-12 09:42 •297次阅读

deepseek国产芯片加速 DeepSeek的国产AI芯片天团

，从而纷纷继续“卷”起来，效仿DeepSeek的“开源”模式。对于DeepSeek本身，人们关注其如何在有限算力实现强大性能，更关注其在重重条令围城之下的未来之路。而在最近，全世界的芯片厂商

发表于 02-10 15:07 •1747次阅读

吉利汽车与DeepSeek深度融合，引领智能汽车AI新纪元

近日，吉利汽车正式宣布，其自研大模型与前沿AI技术公司DeepSeek已完成深度技术融合。继在2025CES上发布行业首个“智能汽车全域AI

发表于 02-08 10:47 •716次阅读

比亚迪最快于11月实现自研算法量产,推进智驾芯片自研进程

10月21日市场传出消息，比亚迪正计划整合其新技术院下的自研智能驾驶团队，目标是在今年11月实现自研智能驾驶算法的量产，并持续推进智能驾驶芯片

发表于 10-22 15:57 •1117次阅读

打下数字设计基础

本人研二刚出来实习，对设计了解的不够全面。公司的机会也很少，希望在实习阶段能够自己多学点，打下基础。

发表于 08-26 08:57

OpenAI自研芯片计划调整，传交台积电生产

近日，全球领先的生成式AI应用大厂OpenAI在自研芯片领域迎来了重大战略调整。为降低对外部AI芯片

发表于 07-23 16:52 •812次阅读

大厂自研芯片背后的赢家，不只有晶圆厂

电子发烧友网报道（文/周凯扬）随着不少云服务厂商和互联网厂商纷纷加入到自研芯片的行业中来，除了具备先进工艺的晶圆代工厂外，提供设计解决方案的

发表于 05-28 00:17 •2909次阅读

苹果将通过自研芯片在云端推出AI功能

近日，科技界传来一则令人振奋的消息。据可靠报道，苹果公司即将在云端推出强大的人工智能（AI）功能，而这一切将依托于自研的高端芯片。

发表于 05-11 10:59 •653次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

传DeepSeek自研芯片，厂商们要把AI成本打下来

评论

科通技术推出DeepSeek+AI芯片全场景方案

EVASH芯片公司接入DeepSeek：AI驱动的芯片设计革新

今日看点丨小鹏自研芯片或5月上车；安森美将在重组期间裁员2400人

DeepSeek、晶振在AI终端中的相关应用

研华发布昇腾AI Box及Deepseek R1模型部署流程

添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

研华边缘AI Box MIC-ATL3S部署Deepseek R1模型

研华WISE-AI Agent借助DeepSeek引领企业级AI全新范式

deepseek国产芯片加速 DeepSeek的国产AI芯片天团

吉利汽车与DeepSeek深度融合，引领智能汽车AI新纪元

比亚迪最快于11月实现自研算法量产,推进智驾芯片自研进程

打下数字设计基础

OpenAI自研芯片计划调整，传交台积电生产

大厂自研芯片背后的赢家，不只有晶圆厂

苹果将通过自研芯片在云端推出AI功能