谷歌全新AI架构，单芯片每秒1000万亿次运算-电子发烧友网

（文章来源：机器之心Pro）

2016 年底，谷歌 TPU 团队的十位核心开发者中的八位悄悄离职，创办了一家名为 Groq 的机器学习系统公司。在此后的三年里，这家公司一直很低调。但最近，他们带着一款名为 TSP 的芯片架构出现在公众视野里。

TSP 的全称是 Tensor Streaming Processor，专为机器学习等 AI 相关需求打造。该架构在单块芯片上可以实现每秒 1000 万亿（10 的 15 次方）次运算，是全球首个实现该级别性能的架构，其浮点运算性能可达每秒 250 万亿次（TFLOPS）。在摩尔定律走向消亡的背景下，这一架构的问世标志着芯片之争从晶体管转向架构。

250 TFLOPS 浮点运算性能是什么概念？目前的世界第一超级计算机 Summit，其峰值算力为 200,794.9 TFLOPS，它的背后是 28,000 块英伟达 Volta GPU。如果 TSP 达到了类似的效率，仅需 803 块就可以实现同样的性能。Groq 在一份白皮书中介绍了这项全新的架构设计。此外，他们还将在于美国丹佛举办的第 23 届国际超算高峰论坛上展示这一成果。

我们为这一行业和我们的客户感到兴奋，Groq 的联合创始人和 CEO Jonathan Ross 表示。顶级 GPU 公司都在宣称他们有望在未来几年向用户交付一款每秒百万亿次运算性能的产品，但 Groq 现在就做到了，而且建立了一个新的性能标准。就低延迟和推理速度而言，Groq 的架构比其他任何用于推理的架构都要快许多倍。我们与用户的互动证明了这一点。

Groq 的 TSP 架构是专为计算机视觉、机器学习和其他 AI 相关工作负载的性能要求设计的。对于一大批需要深度学习推理运算的应用来说，Groq 的解决方案是非常理想的选择，Groq 的首席架构师 Dennis Abts 表示，但除此之外，Groq 的架构还能用于广泛的工作负载。它的性能和简洁性使其成为所有高性能即数据和计算密集型工作复杂的理想平台。

Groq 的这款架构受到软件优先（software first）理念的启发。它在 Groq 开发的 TSP 中实现，为实现计算灵活性和大规模并行计算提供了一种新的范式，但没有传统 GPU 和 CPU 架构的限制和沟通开销。在 Groq 的架构中，Groq 编译器负责编码所有内容：数据流入芯片，并在正确的时间和正确的地点插入，以确保计算实时进行，没有停顿。执行规划由软件负责，这样就可以释放出原本要用于动态指令执行的宝贵硬件资源。

在传统的体系架构中，将数据从 DRAM 移动到处理器需要大量的算力和时间，而且相同工作负载上的处理性能也是可变的。在典型的工作流中，开发人员通过反复运行工作负载或程序来对其进行配置和测试，以验证和度量其平均处理性能。由于处理器接收和发送数据的方式不同，这种处理可能会得到略有差别的结果，而开发人员的工作就是手动调整程序以达到预定的可靠性级别。

但有了 Groq 的硬件和软件，编译器就可以准确地知道芯片的工作方式以及执行每个计算所需的时间。编译器在正确的时间将数据和指令移动到正确的位置，这样就不会有延迟。到达硬件的指令流是完全编排好的，使得处理速度更快，而且可预测。

为了满足深度学习等计算密集型任务的需求，芯片的设计似乎正在变得越来越复杂。但 Groq 认为，这种趋势从根本上就是错误的。他们在白皮书中指出，当前处理器架构的复杂性已经成为阻碍开发者生产和 AI 应用部署的主要障碍。当前处理器的复杂性降低了开发者工作效率，再加上摩尔定律逐渐变慢，实现更高的计算性能变得越来越困难。

Groq 的芯片设计降低了传统硬件开发的复杂度，因此开发者可以更加专注于算法（或解决其他问题），而不是为了硬件调整自己的解决方案。有了这种更加简单的硬件设计，开发者无需进行剖析研究（profiling），因此可以节省资源，更容易大规模部署 AI 应用。与基于 CPU、GPU 和 FPGA 的传统复杂架构相比，Groq 的芯片还简化了认证和部署，使客户能够简单而快速地实现可扩展、单瓦高性能的系统。

Groq 的张量流架构可以在任何需要的地方提供算力。与当前领先的 GPU、CPU 相比，Groq 处理器的每个晶体管可以实现 3-6 倍的性能提升。这一改进意味着交付性能的提升、延迟的下降以及成本的降低。结果是，Groq 的架构使用起来更加简单，而且性能高于传统计算平台。

（责任编辑：fqj）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
452

文章
50150

浏览量
420512
谷歌

谷歌

+关注

关注
27

文章
6126

浏览量
104903

基于迅为RK3588开发板的AI图像识别方案

源源不断的动力。 ■ 无与伦比的视觉盛宴最高支持8K编码+8K解码，能够同时处理多路视频流，确保每一帧画面都流畅如丝，细腻入微。 ■ 智驭未来的AI力量RK3588内置了6Tops（即每秒处理6万亿

发表于 08-13 11:26

苹果承认使用谷歌芯片来训练AI

苹果公司最近在一篇技术论文中披露，其先进的人工智能系统Apple Intelligence背后的两个关键AI模型，是在谷歌设计的云端芯片上完成预训练的。这一消息标志着在尖端AI训练领域

发表于 07-30 17:03 •662次阅读

解析OrangePi AIpro：什么是 TOPS，为什么它对 AI PC很重要？

）的处理器（CPU），以提升人工智能特定性能。TOPS是“TeraOperationsPerSecond”（每秒万亿次运算）的缩写，它表示系统每秒

发表于 07-29 14:50 •357次阅读

英伟达加速AI芯片迭代，推出Rubin架构计划

在近日举办的COMPUTEX 2024展会上，英伟达CEO黄仁勋再次展现了公司在人工智能（AI）芯片领域的雄心壮志。他公布了下一代AI芯片架构

发表于 06-03 11:36 •758次阅读

两小时“吼出”121次AI，谷歌背后埋伏着Open AI的幽灵

谷歌做AI依旧不痛不痒谷歌和OpenAI的又一次对阵，刚刚落幕了。北京时间5月14日凌晨，OpenAI发布端到端多模态AI大模型GPT-4o

发表于 05-19 08:05 •391次阅读

单路运算放大器芯片的作用是什么？

在电子工程领域，单路运算放大器芯片是一款备受瞩目的重要元件。被称为“模拟电路的心脏”，其作用不可小觑。本文将带您深入了解单路运算放大器

发表于 05-16 14:18 •692次阅读

谷歌推新AI音乐工具，发布第六代TPU芯片

谷歌近日宣布与YouTube合作，推出全新音乐工具Music AI Sandbox。这款AI音乐创作工具将与传统AI音乐应用如Suno等展开

发表于 05-16 09:44 •346次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

千万亿次浮点运算。英伟达还构建了由72张GB200构成的DGX GB200 NVL72[超级计算机]。该超级计算机在内部节点间使用铜缆连接，以降低功耗。 Blackwell 图形处理器采用双

发表于 05-13 17:16

Cerebras发布WSE-3 AI芯片，性能翻倍达4万亿晶体，能耗不变

该款 WSE-3 AI芯片几乎完全由一块12英寸晶圆构成，形如边长21.5厘米之正方体。这款芯片设有90万个 AI 内核，理论上可输出每秒1

发表于 03-18 16:37 •827次阅读

AI芯片的技术原理与架构

人工神经网络模型 AI芯片的核心原理基于人工神经网络，其中芯片内部的处理单元模拟了生物神经元的工作机制。每一个处理单元能够独立进行复杂的数学运算，例如权重乘以输入信号并累加，形成神经元

发表于 03-12 11:27 •3406次阅读

谷歌发布全新AI模型Genie

谷歌近日发布了其全新的AI模型Genie，这一模型彻底改变了我们与数字世界的互动方式。Genie不仅可以接收文本提示、草图或想法，还能将这些创意迅速转化为一个可互动和玩耍的虚拟世界。

发表于 02-28 18:25 •1605次阅读

骁龙X Elite处理器在AI生成图片性能超群，英特尔亦被超越

高通公司称，该款处理器内置AI协处理器（NPU），性能达到惊人的45 TOPS（每秒万亿次运算）。视频通过实例对比英特尔酷睿 Ultra 7

发表于 02-28 14:09 •689次阅读

谷歌推出AI扩散模型Lumiere

近日，谷歌研究院重磅推出全新AI扩散模型Lumiere，这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构，旨在实现视频

发表于 02-04 13:49 •950次阅读

谷歌发布全新AI SDK，简化安卓应用集成

谷歌破茧而出，全新发布 Google AI SDK，引领 Android 应用迈向高性能 AI 集成新时代。这次发布的 SDK，专门为 Android 应用打造，将 Gemini Pr

发表于 01-03 14:18 •762次阅读

如何打破AI芯片垄断霸权

其一，管制标准方面，用性能密度替代宽带参数。禁止向中国出售运行速度为300TFLOPS（一万亿运算/秒）及以上的芯片，速度为150-300TFLOPS的芯片的性能密度为每平方毫米370

发表于 11-25 09:50 •1013次阅读

搜索历史

谷歌全新AI架构，单芯片每秒1000万亿次运算

评论

基于迅为RK3588开发板的AI图像识别方案

苹果承认使用谷歌芯片来训练AI

解析OrangePi AIpro：什么是 TOPS，为什么它对 AI PC很重要？

英伟达加速AI芯片迭代，推出Rubin架构计划

两小时“吼出”121次AI，谷歌背后埋伏着Open AI的幽灵

单路运算放大器芯片的作用是什么？

谷歌推新AI音乐工具，发布第六代TPU芯片

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

Cerebras发布WSE-3 AI芯片，性能翻倍达4万亿晶体，能耗不变

AI芯片的技术原理与架构

谷歌发布全新AI模型Genie

骁龙X Elite处理器在AI生成图片性能超群，英特尔亦被超越

谷歌推出AI扩散模型Lumiere

谷歌发布全新AI SDK，简化安卓应用集成

如何打破AI芯片垄断霸权