黑马Groq单挑英伟达，AI芯片要变天？-电子发烧友网

科技云报道原创。

近一周来，大模型领域重磅产品接连推出：OpenAI发布“文字生视频”大模型Sora；Meta发布视频预测大模型 V-JEPA；谷歌发布大模型 Gemini 1.5 Pro，更毫无预兆地发布了开源模型Gemma......

难怪网友们感叹：“一开年AI发展的节奏已经如此炸裂了么！”

但更令人意想不到的是，AI芯片领域处于绝对霸主地位的英伟达，竟然也遇到了挑战，而且挑战者还是一家初创公司。

在这家名叫Groq的初创芯片及模型公司官网上，它号称是世界最快大模型，比GPT-4快18倍，测试中最快达到破纪录的每秒吞吐500 tokens。

这闪电般的速度，来源于Groq自研的LPU（语言处理单元），是一种名为张量流处理器（TSP）的新型处理单元，自然语言处理速度是英伟达GPU 10倍，做到了推理的最低延迟。

“快”字当头，Groq可谓赚足眼球。Groq还喊话各大公司，扬言在三年内超越英伟达。

事实上，在这一波AI热潮中，“天下苦英伟达久矣”。英伟达GPU芯片价格一再被炒高，而Groq的LPU架构能“弯道超车”，显然是众望所归。

因此，不少舆论惊呼Groq要颠覆英伟达，也有业内人士认为Groq想要“平替”英伟达还有很长的路要走。

但无论持哪种观点，Groq的出现不仅是对现有芯片架构和市场格局的挑战，也预示着AI芯片及其支撑的大模型发展方向正在发生变化——聚焦AI推理。

Groq LPU：快字当头

据介绍，Groq的芯片采用14nm制程，搭载了230MB大静态随机存储器（SRAM）以保证内存带宽，片上内存带宽达80TB/s。在算力方面，该芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度为188TFLOPs。

Anyscale的LLMPerf排行显示，在Groq LPU推理引擎上运行的Llama 2 70B，输出tokens吞吐量快了18倍，优于其他所有云推理供应商。

据网友测试，面对300多个单词的“巨型”prompt（AI模型提示词），Groq在不到一秒钟的时间里，就为一篇期刊论文创建了初步大纲和写作计划。此外，Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默（Matt Shumer）在体验Groq后称赞其快如闪电，能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。

更令人惊讶的是，其超过3/4的时间用于搜索信息，而生成答案的时间却短到只有几分之一秒。

Groq之所以“快如闪电”，其创新的核心在于LPU。

据官方信息显示，LPU推理引擎是一种新型的端到端处理单元系统，它为计算密集型应用提供最快的推理能力，这些应用具有序列组件，例如AI语言应用程序（LLM）。

LPU旨在克服LLM的两个瓶颈：计算密度和内存带宽。

就LLM而言，LPU比GPU和CPU具有更大的计算能力。这减少了每个单词的计算时间，从而可以更快地生成文本序列。

同时，与利用高带宽内存（HBM）的GPU不同，Groq的LPU利用SRAM进行数据处理，比HBM快约20倍，从而显著降低能耗并提高效率。

GroqChip的独特架构与其时间指令集相结合，可实现自然语言和其他顺序数据的理想顺序处理。

消除外部内存瓶颈，不仅使LPU推理引擎能够在LLM上提供比GPU高几个数量级的性能。

而且由于LPU只进行推理计算，需要的数据量远小于模型训练，从外部内存读取的数据更少，消耗的电量也低于GPU。

此外，LPU芯片设计实现了多个TSP的无缝连接，避免了GPU集群中的瓶颈问题，显著地提高了可扩展性。

因此，Groq公司宣称，其LPU所带来的AI推理计算是革命性的。

在AI推理领域挑战GPU

尽管Groq高调喊话，但想要“平替”英伟达GPU并不容易。从各方观点来看，Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账，因为Groq小得可怜的内存容量，在运行Llama 2 70B模型时，需要305张Groq卡才足够，而用英伟达的H100则只需要8张卡。

从目前的价格来看，这意味着在同等吞吐量下，Groq的硬件成本是H100的40倍，能耗成本是10倍。

但跳出单纯的价格对比，Groq LPU的解决方案依然展现出了不小的应用潜力。

根据机器学习算法步骤，AI芯片可以划分为训练AI芯片和推理AI芯片。

训练芯片是用于构建神经网络模型，需要高算力和通用性，追求的是高计算性能（高吞吐率）、低功耗。

推理芯片是对训练好的神经网络模型进行运算，利用输入的新数据来一次性获得正确结论。

因此完成推理过程的时间要尽可能短、低功耗，更关注用户体验方面的优化。

虽然现阶段GPU利用并行计算的优势在AI领域大获全胜，但由于英伟达GPU的独有架构，英伟达H100等芯片在推理领域算力要求远不及训练端，这也就给Groq等竞争对手留下了机会。

因此，专注于AI推理的Groq LPU，得以在推理这个特定领域挑战英伟达GPU的地位。从测试结果上看，Groq能够达到令人满意的“秒回”效果。

这也在一定程度上显示了通用芯片与专用芯片的路径分歧。

随着AI和深度学习的不断发展，对专用芯片的需求也在增长。

各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现，它们在各自擅长的领域内展现出了挑战GPU的可能性。

相比于英伟达通用型AI芯片，自研AI芯片也被称作ASIC，往往更适合科技公司本身的AI工作负载需求且成本较低。

比如，云巨头AWS就推出了为生成式AI和机器学习训练而设计全新自研AI芯片AWS Trainium2，性能比上一代芯片提高到4倍，可提供65ExaFlops超算性能。

微软也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia，后者是微软首款AI芯片，主要针对大语言模型训练，预计将于明年初开始在微软Azure数据中心推出。

谷歌云也推出了新版本的TPU芯片TPU v5p，旨在大幅缩减训练大语言模型时间投入。

无论是大厂自研的AI芯片，还是像Groq LPU这样的专用芯片，都是为了优化特定AI计算任务的性能和成本效率，同时减少对英伟达等外部供应商的依赖。

作为GPU的一个重要补充，专用芯片让面对紧缺昂贵的GPU芯片的企业有了一个新的选择。

AI芯片聚焦推理

随着AI大模型的快速发展，尤其是Sora以及即将推出的GPT-5，都需要更强大高效的算力。但GPU在推理方面的不够高效，已经影响到了大模型业务的发展。

从产业发展趋势来看，AI算力负载大概率将逐步从训练全面向推理端迁移。

华尔街大行摩根士丹利在2024年十大投资策略主题中指出，随着消费类边缘设备在数据处理、存储端和电池续航方面的大幅改进，2024年将有更多催化剂促使边缘AI这一细分领域迎头赶上，AI行业的发展重点也将从“训练”全面转向“推理”。

高通CEO Amon也指出，芯片制造商们的主要战场不久后将由“训练”转向“推理”。

Amon在采访时表示：“随着AI大模型变得更精简、能够在设备上运行并专注于推理任务，芯片制造商的主要市场将转向‘推理’，即模型应用。预计数据中心也将对专门用于已训练模型推理任务的处理器产生兴趣，一切都将助力推理市场规模超越训练市场。”

在最新的财报电话会上，英伟达CFO Colette Kress表示，大模型的推理场景已经占据英伟达数据中心40%的营收比例。这也是判断大模型行业落地前景的重要信号。

事实上，巨头们的一举一动也在印证这一趋势的到来。

据路透社报道，Meta将推新款自研AI推理芯片Artemis。预计Meta可于年内完成该芯片在自有数据中心的部署，与英伟达GPU协同提供算力。

而英伟达也通过强化推理能力，巩固自身通用GPU市占率。

在下一代芯片H200中，英伟达在H100的基础上将存储器HBM进行了一次升级，为的也是提升芯片在推理环节中的效率。

不仅如此，随着各大科技巨头、芯片设计独角兽企业都在研发更具效率、部分替代GPU的芯片，英伟达也意识到这一点，建立起了定制芯片的业务部门。

总的来说，以现在AI芯片供不应求的现状，GPU的增长暂时还不会放缓。但随着AI发展趋势的快速变化，英伟达不可能是永远的王者，而Groq也绝对不是唯一的挑战者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年，是前沿企业级IT领域Top10媒体。获工信部权威认可，可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3767

浏览量
90968
AI芯片

AI芯片

+关注

关注
17

文章
1877

浏览量
34975
大模型

大模型

+关注

关注
2

文章
2409

浏览量
2622

刷屏的Groq芯片，速度远超英伟达GPU！成本却遭质疑

电子发烧友网报道（文/李弯弯）英伟达遇到劲敌了？近日，Groq芯片计算速度超过英伟达GPU的消息

发表于 02-22 09:06 •3511次阅读

英伟达加速认证三星新型AI存储芯片

近日，英伟达首席执行官黄仁勋近日在接受采访时透露，英伟达正在全力加速对三星最新推出的AI存储芯片

发表于 11-26 10:22 •169次阅读

AI芯片巨头英伟达涨超4% 英伟达市值暴增7500亿

谁是美股最靓的仔？在人工智能浪潮之下AI芯片巨头英伟达肯定有一席之地，特别是现在全球资本市场动荡之际，业界分析师多认为英伟

发表于 08-13 15:33 •1085次阅读

英伟达回应AI芯片推迟发布传闻

近日，英伟达就外界广泛关注的AI芯片Blackwell推迟发布传闻作出正式回应。8月4日，英伟达

发表于 08-05 17:34 •670次阅读

英伟达TITAN AI显卡曝光，性能狂超RTX 4090达63%！# 英伟达# 显卡

显卡英伟达

jf_02331860

发布于 :2024年07月24日 17:18:28

英伟达AI芯片需求激增，封测厂订单量或翻倍

在全球半导体行业持续演进的背景下，英伟达（NVIDIA）的AI芯片需求正迎来前所未有的增长。据悉，英伟达

发表于 06-24 18:05 •1619次阅读

英伟达Blackwell芯片已投产，预告未来AI芯片发展

英伟达创始人兼CEO黄仁勋近日宣布，公司旗下的Blackwell芯片已正式投入生产。这款芯片是英伟达

发表于 06-04 09:23 •1966次阅读

英伟达首席执行官黄仁勋：AI模型推动英伟达AI芯片需求

近来，以ChatGPT为代表的AI聊天机器人已经导致英伟达AI芯片供应紧张。然而，随着能够创造视频并进行近似人类交流的新型

发表于 05-24 10:04 •485次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

2024年3月19日，[英伟达]CEO[黄仁勋]在GTC大会上公布了新一代AI芯片架构BLACKWELL，并推出基于该架构的超级芯片GB20

发表于 05-13 17:16

英伟达最新AI芯片售价将超3万美元

英伟达最新AI芯片Blackwell的售价引发了业界的广泛关注。据公司创始人黄仁勋透露，这款芯片的售价预计将在3万美元至4万美元之间。这一价

发表于 03-21 10:50 •937次阅读

英伟达要小心了！爆火的Groq芯片能翻盘吗？AI推理速度「吊打」英伟达？

随着科技的飞速发展，人工智能公司Groq挑战了英伟达的王者地位，其AI芯片不仅展现出卓越的实力，还拥有巨大的潜力。

发表于 03-08 09:44 •905次阅读

英伟达被控延迟出货，阻碍竞争

据报道，若发现客户寻找新的商业发展机遇，英伟达可能因此推迟数据中心GPU的出货。Groq这家人工智能芯片初创企业的首席执行官罗斯（Jonathan Ross）则表示，由于担心遭到

发表于 02-29 09:53 •540次阅读

“网红”芯片Groq让英伟达蒸发5600亿

鉴于ChatGPT的广泛应用，引发了AI算力需求的迅猛增长，使得英伟达的AI芯片供不应求，出现大规模短缺。如今，

发表于 02-27 15:10 •1159次阅读

英伟达将用AI设计AI芯片

AI芯片行业资讯

深圳市浮思特科技有限公司
发布于 :2024年02月19日 17:54:43

英伟达涉足定制芯片，聚焦云计算与AI市场

　作为全球高端AI芯片市场80%份额的霸主，英伟达自2023以来股价上涨超过两倍，2024年市值高达1.73万亿美元。知名公司如微软、OpenAI、Meta纷纷采购

发表于 02-18 11:08 •673次阅读

搜索历史

黑马Groq单挑英伟达，AI芯片要变天？

评论

刷屏的Groq芯片，速度远超英伟达GPU！成本却遭质疑

英伟达加速认证三星新型AI存储芯片

AI芯片巨头英伟达涨超4% 英伟达市值暴增7500亿

英伟达回应AI芯片推迟发布传闻

英伟达TITAN AI显卡曝光，性能狂超RTX 4090达63%！# 英伟达# 显卡

英伟达AI芯片需求激增，封测厂订单量或翻倍

英伟达Blackwell芯片已投产，预告未来AI芯片发展

英伟达首席执行官黄仁勋：AI模型推动英伟达AI芯片需求

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

英伟达最新AI芯片售价将超3万美元

英伟达要小心了！爆火的Groq芯片能翻盘吗？AI推理速度「吊打」英伟达？

英伟达被控延迟出货，阻碍竞争

“网红”芯片Groq让英伟达蒸发5600亿

英伟达将用AI设计AI芯片

英伟达涉足定制芯片，聚焦云计算与AI市场