Cerebras推出WSE-3 AI芯片，比NVIDIA H100大56倍-电子发烧友网

Cerebras 是一家位于美国加利福尼亚州的初创公司，2019 年进入硬件市场，其首款超大人工智能芯片名为 Wafer Scale Engine (WSE) ，尺寸为 8 英寸 x 8 英寸，比最大的 GPU 大 56 倍，拥有 1.2 万亿个晶体管和 40 万个计算核心，是当时最快、最大的 AI 芯片。随后在 2021 年，Cerebras 推出了 WSE-2，这是一款 7 纳米芯片，其性能是原来的两倍，拥有 2.6 万亿个晶体管和 85 万个核心。

近日，Cerebras 宣布推出了第三代WSE-3，性能再次提高了近一倍。

Cerebras 推出 WSE-3 AI 芯片，比 NVIDIA H100 大 56 倍 WSE-3采用台积电5nm工艺，拥有超过4万亿个晶体管和90 万个核心，可提供 125 petaflops 的性能。这款芯片是台积电可以制造的最大的方形芯片。WSE-3拥有44GB 片上 SRAM，而不是片外 HBM3E 或 DDR5。内存与核心一起分布，目的是使数据和计算尽可能接近。

自推出以来，Cerebras 就将自己定位为英伟达GPU 驱动的人工智能系统的替代品。这家初创公司的宣传是：他们可以使用更少的芯片在 Cerebras 硬件上进行 AI训练，而不是使用数千个 GPU。据称，一台Cerebras服务器可以完成与 10 个 GPU 机架相同的工作。

下图是Cerebras WSE-3和英伟达 H100的对比。

Cerebras 的独特优势是将整个硅片直接转化为单一巨大的处理器，从而大幅提升计算性能和效率。英伟达、AMD、英特尔等公司往往会把一块大晶圆切成多个小的部分来制造芯片，在充斥着 Infiniband、以太网、PCIe 和 NVLink 交换机的英伟达GPU 集群中，大量的功率和成本花费在重新链接芯片上，Cerebras的方法极大地减少了芯片之间的数据传输延迟，提高了能效比，并且在AI和ML任务中实现了前所未有的计算速度。

Cerebras CS-3 系统

Cerebras CS-3 是第三代 Wafer Scale 系统。其顶部具有 MTP/MPO 光纤连接，以及用于冷却的电源、风扇和冗余泵。该系统及其新芯片在相同的功耗和价格下实现了大约 2 倍的性能飞跃。

Cerebras WSE-3 的核心数量是英伟达的 H100 Tensor Core 的 52 倍。与 Nvidia DGX H100 系统相比，由 WSE-3 芯片驱动的 Cerebras CS-3 系统的训练速度提高了 8 倍，内存增加了 1,900 倍，并且可以训练多达 24 万亿个参数的 AI 模型，这是其 600 倍。Cerebras 高管表示，CS-3的能力比 DGX H100 的能力还要大。在 GPU 上训练需要 30 天的 Llama 700 亿参数模型，使用CS-3 集群进行训练只需要一天。

CS-3可以配置为多达2048个系统的集群，可实现高达 256 exaFLOPs 的 AI 计算，专为快速训练 GPT-5 规模的模型而设计。

Cerebras CS-3 适用于 2048 节点 256EF 集群

适用于 GPT 5 规模的 Cerebras CS-3 集群

Cerebras AI编程

Cerebras 声称其平台比英伟达的平台更易于使用，原因在于 Cerebras 存储权重和激活的方式，Cerebras 不必扩展到系统中的多个 GPU，然后扩展到集群中的多个 GPU 服务器。

除了代码更改很容易之外，Cerebras 表示它的训练速度比 Meta GPU 集群更快。当然，这只是理论上数据，当前还没有任何 2048 个 CS-3 集群已经投入运行，而 Meta 已经有了 AI GPU 集群。

Llama 70B Meta VS Cerebras CS-3 集群

Cerebras 与高通合作开发人工智能推理

Cerebras 和高通建立了合作伙伴关系，目标是将推理成本降低 10 倍。Cerebras 表示，他们的解决方案将涉及应用神经网络技术，例如权重数据压缩等。该公司表示，经过 Cerebras 训练的网络将在高通公司的新型推理芯片AI 100 Ultra上高效运行。

这项工作使用了四种主要技术来定制 Cerebras 训练的模型：

稀疏性是 Cerebras 的秘密武器之一，Cerebras 能够在训练过程中利用动态、非结构化的稀疏性。高通的 Cloud AI100 具有对非结构化稀疏性的硬件支持，这种稀疏协同可以使性能提高2.5倍。

推测解码是一种前景广阔但迄今为止难以有效实施的行业技术，也被用来加快速度。这种技术使用一个大型LLM和一个小型LLM的组合来完成一个大型LLM的工作。小模型不太精确，但效率较高。大模型用于检查小模型的合理性。总体而言，组合效率更高，由于该技术总体上使用的计算量较少，因此速度可以提高 1.8 倍。

权重压缩为 MxFP6，这是一种行业 6 位微指数格式，与 FP16 相比，可节省 39% 的 DRAM 空间。高通的编译器将权重从 FP32 或 FP16 压缩为 MxFP6，Cloud AI100 的矢量引擎在软件中执行即时解压缩到 FP16。该技术可以将推理速度提高 2.2 倍。

神经架构搜索（NAS）是一种推理优化技术。该技术在训练期间考虑了目标硬件（Qualcomm Cloud AI 100）的优点和缺点，以支持在该硬件上高效运行的层类型、操作和激活函数。Cerebras 和 Qualcomm 在 NAS 方面的工作使推理速度提高了一倍。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4929

浏览量
102790
晶体管

晶体管

+关注

关注
77

文章
9629

浏览量
137808
AI芯片

AI芯片

+关注

关注
17

文章
1859

浏览量
34900
人工智能芯片

人工智能芯片

+关注

关注
1

文章
119

浏览量
29056
DDR5

DDR5

+关注

关注
1

文章
417

浏览量
24092

原文标题：初创公司Cerebras 推出 WSE-3 AI 芯片，声称“吊打”英伟达 H100

文章出处：【微信号：SDNLAB，微信公众号：SDNLAB】欢迎添加关注！文章转载请注明出处。

英伟达H100芯片市场降温

随着英伟达新一代AI芯片GB200需求的不断攀升，其上一代明星产品H100芯片却遭遇了市场的冷落。据业内人士透露，搭载H100的服务器通常以

发表于 10-28 15:42 •337次阅读

马斯克自曝训练Grok 3用了10万块NVIDIA H100

在科技界的前沿阵地上，埃隆·马斯克再次以其前瞻性的视野和大胆的尝试引领着新的风潮。近日，马斯克在社交媒体X上的一则回应，不经意间透露了其即将推出的AI聊天机器人Grok 3背后的惊人秘密——这款被马斯克誉为“非常特别”的

发表于 07-03 14:16 •451次阅读

AI初出企业Cerebras已申请IPO！称发布的AI芯片比GPU更适合大模型训练

美国加州，专注于研发比GPU更适用于训练AI模型的晶圆级芯片，为复杂的AI应用构建计算机系统，并与阿布扎比科技集团G42等机构合作构建超级计算机。基于其最新旗舰

发表于 06-26 00:09 •2873次阅读

<b class='flag-5'>AI</b>初出企业<b class='flag-5'>Cerebras</b>已申请IPO！称发布的<b class='flag-5'>AI</b><b class='flag-5'>芯片</b><b class='flag-5'>比</b>GPU更适合大模型训练

Supermicro推出适配NVIDIA Blackwell和NVIDIA HGX H100/H200的机柜级即插即用液冷AI SuperCluster

制造商，推出可立即部署式液冷型AI数据中心。此数据中心专为云原生解决方案而设计，通过SuperCluster加速各界企业对生成式AI的运用，并针对NVIDIA

发表于 06-07 15:12 •246次阅读

Supermicro<b class='flag-5'>推出</b>适配<b class='flag-5'>NVIDIA</b> Blackwell和<b class='flag-5'>NVIDIA</b> HGX <b class='flag-5'>H100</b>/<b class='flag-5'>H</b>200的机柜级即插即用液冷<b class='flag-5'>AI</b> SuperCluster

英特尔的最强AI芯片要来了，声称性能完胜英伟达H100

增加了近1.5倍。与竞争对手的正面对标也不落下风。英特尔声称Gaudi3已全面超越英伟达去年发布的H100芯片：运行

发表于 04-11 23:36 •417次阅读

英特尔发布人工智能芯片新版，对标Nvidia

为应对AI行业对高性能芯片的巨大需求，英特尔推出了全新Gaudi 3芯片，据称这一款芯片在训练大

发表于 04-10 09:26 •335次阅读

世界第一AI芯片发布！世界纪录直接翻倍晶体管达4万亿个

3月14日消息，今天，美国芯片初创公司Cerebras Systems，推出了全球最强的第三代晶圆级AI加速

发表于 03-21 17:34 •542次阅读

Cerebras推出性能翻倍的WSE-3 AI芯片

Cerebras Systems近日推出的Wafer Scale Engine 3（WSE-3）芯片无疑在人工智能领域掀起了一场革命。这款

发表于 03-20 11:32 •836次阅读

Cerebras Systems推出迄今最快AI芯片，搭载4万亿晶体管

美国芯片初创企业Cerebras Systems近日在人工智能领域取得了重大突破，成功推出了全新的5纳米级“晶圆级引擎3”（WSE-3）

发表于 03-19 11:29 •731次阅读

最强AI芯片发布，Cerebras推出性能翻倍的WSE-3 AI芯片

近日，芯片行业的领军企业Cerebras Systems宣布推出其革命性的产品——Wafer Scale Engine 3，该产品成功将现有最快AI

发表于 03-19 09:31 •1001次阅读

Cerebras发布WSE-3 AI芯片，性能翻倍达4万亿晶体，能耗不变

该款 WSE-3 AI芯片几乎完全由一块12英寸晶圆构成，形如边长21.5厘米之正方体。这款芯片设有90万个 AI 内核，理论上可输出每秒1

发表于 03-18 16:37 •851次阅读

AI芯片界掀起狂潮，WSE-3性能飙升刷新纪录！

WSE-3采用了4万亿晶体管的5纳米工艺制程，工艺水平达到了惊人的高度。

发表于 03-15 16:08 •912次阅读

Cerebras推WSE-3芯片，性能翻倍，助力超大规模AI模型训练

首先，WSE-3采用台积电最新的5nm工艺制作（目前领先业界）。其次，该芯片拥有超过4万亿个晶体管以及90万个AI核心，配合44GB片上SRAM高速缓存及三种可选片外存储方案（分别是1.5TB、12TB与1.2PB）。

发表于 03-14 10:01 •742次阅读

英伟达H200和H100的比较

英伟达H200和H100是两款不同的AI芯片，它们各自具有独特的特点和优势。以下是关于这两款芯片的一些比较。

发表于 03-07 15:53 •4222次阅读

英伟达：预计下一代AI芯片B100短缺，计划扩产并采用新架构

近期热门的 H100 芯片运期短缩数天后，英伟达新型 AI 旗舰芯片 B100搭载全新的 Blackwell，有望使

发表于 02-25 09:29 •863次阅读

搜索历史

Cerebras推出WSE-3 AI芯片，比NVIDIA H100大56倍

评论

英伟达H100芯片市场降温

马斯克自曝训练Grok 3用了10万块NVIDIA H100

AI初出企业Cerebras已申请IPO！称发布的AI芯片比GPU更适合大模型训练

Supermicro推出适配NVIDIA Blackwell和NVIDIA HGX H100/H200的机柜级即插即用液冷AI SuperCluster

英特尔的最强AI芯片要来了，声称性能完胜英伟达H100

英特尔发布人工智能芯片新版，对标Nvidia

世界第一AI芯片发布！世界纪录直接翻倍晶体管达4万亿个

Cerebras推出性能翻倍的WSE-3 AI芯片

Cerebras Systems推出迄今最快AI芯片，搭载4万亿晶体管

最强AI芯片发布，Cerebras推出性能翻倍的WSE-3 AI芯片

Cerebras发布WSE-3 AI芯片，性能翻倍达4万亿晶体，能耗不变

AI芯片界掀起狂潮，WSE-3性能飙升刷新纪录！

Cerebras推WSE-3芯片，性能翻倍，助力超大规模AI模型训练

英伟达H200和H100的比较

英伟达：预计下一代AI芯片B100短缺，计划扩产并采用新架构