推理芯片的最大挑战-电子发烧友网

在不到一年的时间里，生成式人工智能通过 OpenAI 的 ChatGPT（一种基于 Transformer 的流行算法）获得了全球声誉和使用。基于 Transformer 的算法可以学习对象不同元素（例如句子或问题）之间的复杂交互，并将其转换为类似人类的对话。

在 Transformer 和其他大型语言模型 (LLM) 的引领下，软件算法取得了快速进展，而负责执行它们的处理硬件却被抛在了后面。即使是最先进的算法处理器也不具备在一两秒的时间范围内详细阐述最新 ChatGPT 查询所需的性能。

为了弥补性能不足，领先的半导体公司构建了由大量最好的硬件处理器组成的系统。在此过程中，他们权衡了功耗、带宽/延迟和成本。该方法适用于算法训练，但不适用于部署在边缘设备上的推理。

功耗挑战

虽然训练通常基于生成大量数据的 fp32 或 fp64 浮点算法，但它不需要严格的延迟。功耗高，成本承受能力高。

相当不同的是推理过程。推理通常在 fp8 算法上执行，该算法仍会产生大量数据，但需要关键的延迟、低能耗和低成本。

模型训练的解决方案来自于计算场。它们运行数天，使用大量电力，产生大量热量，并且获取、安装、操作和维护成本高昂。更糟糕的是推理过程，碰壁并阻碍了 GenAI 在边缘设备上的扩散。

边缘生成人工智能推理的最新技术

成功的 GenAI 推理硬件加速器必须满足五个属性：

petaflops 范围内的高处理能力和高效率（超过 50%）

低延迟，可在几秒钟内提供查询响应

能耗限制在 50W/Petaflops 或以下

成本实惠，与边缘应用兼容

现场可编程性可适应软件更新或升级，以避免工厂进行硬件改造

大多数现有的硬件加速器可以满足部分要求，但不能满足全部要求。老牌CPU是最差的选择，因为执行速度令人无法接受；GPU 在高功耗和延迟不足的情况下提供相当快的速度（因此是训练的选择）；FPGA 在性能和延迟方面做出了妥协。

完美的设备将是定制/可编程片上系统 (SoC)，旨在执行基于变压器的算法以及其他类型算法的发展。它应该支持合适的内存容量来存储法学硕士中嵌入的大量数据，并且应该可编程以适应现场升级。

有两个障碍阻碍了这一目标的实现：内存墙和 CMOS 器件的高能耗。

内存墙

人们在半导体发展历史的早期就观察到，处理器性能的进步被内存访问的缺乏进步所抵消。

随着时间的推移，两者之间的差距不断扩大，迫使处理器等待内存传送数据的时间越来越长。结果是处理器效率从完全 100% 利用率下降（图 1）。

为了缓解效率的下降，业界设计了一种多级分层内存结构，采用更快、更昂贵的内存技术，靠近处理器进行多级缓存，从而最大限度地减少较慢主内存甚至较慢外部内存的流量（图 2）。

CMOS IC 的能耗

与直觉相反，CMOS IC 的功耗主要由数据移动而非数据处理决定。根据马克·霍洛维茨教授领导的斯坦福大学研究（表 1），内存访问的功耗比基本数字逻辑计算消耗的能量高出几个数量级。

加法器和乘法器的功耗从使用整数运算时的不到一皮焦耳到处理浮点运算时的几皮焦耳。相比之下，在 DRAM 中访问数据时，访问高速缓存中的数据所花费的能量会跃升一个数量级，达到 20-100 皮焦耳，并且会跃升三个数量级，达到超过 1,000 皮焦耳。

GenAI 加速器是以数据移动为主导的设计的典型例子。

内存墙和能耗对延迟和效率的影响

生成式人工智能处理中的内存墙和能耗的影响正变得难以控制。

几年之内，为 ChatGPT 提供支持的基础模型 GPT 从 2019 年的 GPT-2 发展到 2020 年的 GPT-3，再到 2022 年的 GPT-3.5，再到目前的 GPT-4。每一代模型的大小和参数（weights, tokens和states）的数量都增加了几个数量级。

GPT-2 包含 15 亿个参数，GPT-3 模型包含 1750 亿个参数，最新的 GPT-4 模型将参数规模推至约 1.7 万亿个参数（尚未发布官方数字）。

这些参数的庞大数量不仅迫使内存容量达到 TB 范围，而且在训练/推理过程中同时高速访问它们也会将内存带宽推至数百 GB/秒（如果不是 TB/秒）。为了进一步加剧这种情况，移动它们会消耗大量的能量。

昂贵的硬件闲置

内存和处理器之间令人畏惧的数据传输带宽以及显着的功耗压倒了处理器的效率。最近的分析表明，在尖端硬件上运行 GPT-4 的效率下降至 3% 左右。为运行这些算法而设计的昂贵硬件在 97% 的时间内处于闲置状态。

执行效率越低，执行相同任务所需的硬件就越多。例如，假设 1 Petaflops（1,000 Teraflops）的要求可以由两个供应商满足。供应商（A 和 B）提供不同的处理效率，分别为 5% 和 50%（表 2）。

那么供应商 A 只能提供 50 Teraflops 的有效处理能力，而不是理论处理能力。供应商 B 将提供 500 Teraflops。为了提供 1 petaflop 的有效计算能力，供应商 A 需要 20 个处理器，但供应商 B 只需 2 个。

例如，一家硅谷初创公司计划在其超级计算机数据中心使用 22,000 个 Nvidia H100 GPU。粗略计算，22,000 个 H100 GPU 的售价为 8 亿美元——这是其最新融资的大部分。该数字不包括其余基础设施的成本、房地产、能源成本以及本地硬件总拥有成本 (TCO) 中的所有其他因素。

系统复杂性对延迟和效率的影响

另一个例子，基于当前最先进的 GenAI 训练加速器，将有助于说明这种担忧。硅谷初创公司的 GPT-4 配置将需要 22,000 个 Nvidia H100 GPU 副本以八位字节的形式部署在HGX H100 或 DGX H100 系统，总共产生 2,750 个系统。

考虑到 GPT-4 包括 96 个解码器，将它们映射到多个芯片上可能会减轻对延迟的影响。由于 GPT 结构允许顺序处理，因此为总共 96 个芯片为每个芯片分配一个解码器可能是一种合理的设置。

该配置可转换为 12 个 HGX/DGX H100 系统，不仅对单芯片之间、电路板之间和系统之间移动数据带来的延迟提出挑战。使用增量变压器可以显着降低处理复杂性，但它需要状态的处理和存储，这反过来又增加了要处理的数据量。

底线是，前面提到的 3% 的实施效率是不现实的。当加上系统实现的影响以及相关的较长延迟时，实际应用程序中的实际效率将显着下降。

综合来看，GPT-3.5所需的数据量远不及GPT-4。从商业角度来看，使用类似 GPT-3 的复杂性比 GPT-4 更具吸引力。另一方面是 GPT-4 更准确，如果可以解决硬件挑战，它会成为首选。

最佳猜测成本分析

让我们重点关注能够处理大量查询的系统的实施成本，例如类似 Google 的每秒 100,000 个查询的量。

使用当前最先进的硬件，可以合理地假设总拥有成本（包括购置成本、系统运营和维护成本）约为 1 万亿美元。据记录，这大约相当于世界第八大经济体意大利 2021 年国内生产总值 (GDP) 的一半。

ChatGPT 对每次查询成本的影响使其在商业上具有挑战性。摩根士丹利估计，2022 年 Google 搜索查询（3.3 万亿次查询）的每次查询成本为 0.2 英镑（被视为基准）。同一分析表明，ChatGPT-3 上的每次查询成本在 3 到 14 欧元之间，比基准高 15-70 倍。

半导体行业正在积极寻找应对成本/查询挑战的解决方案。尽管所有尝试都受到欢迎，但解决方案必须来自新颖的芯片架构，该架构将打破内存墙并大幅降低功耗。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19518

浏览量
231744
人工智能

人工智能

+关注

关注
1799

文章
48034

浏览量
241877
语言模型

语言模型

+关注

关注
0

文章
549

浏览量
10400

原文标题：推理芯片的最大挑战

文章出处：【微信号：TenOne_TSMC，微信公众号：芯片半导体】欢迎添加关注！文章转载请注明出处。

AI推理的存储，看好SRAM？

看到了其前景并提前布局。AI推理也使得存储HBM不再是唯一热门，更多存储芯片与AI推理芯片结合，拥有了市场机会。已经有不少AI推理

发表于 03-03 08:51 •603次阅读

黑芝麻智能芯片加速DeepSeek模型推理

近日，黑芝麻智能宣布，其武当C1200家族芯片已成功完成DeepSeek模型推理的部署，而A2000芯片也将全面支持基于DeepSeek的多模态大模型推理。这一消息标志着黑芝麻智能在推

发表于 02-14 15:04 •255次阅读

使用NVIDIA推理平台提高AI推理性能

NVIDIA推理平台提高了 AI 推理性能，为零售、电信等行业节省了数百万美元。

发表于 02-08 09:59 •296次阅读

使用NVIDIA<b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理</b>性能

Neuchips展示大模型推理ASIC芯片

。新的芯片解决方案Raptor使企业能够以现有解决方案的一小部分成本部署大型语言模型（LLM）推理。 Neuchips CEO Ken Lau表示：“我们很高兴在CES 2024上向业界展示我们

发表于 01-06 17:30 •311次阅读

使用vLLM+OpenVINO加速大语言模型推理

随着大语言模型的广泛应用，模型的计算需求大幅提升，带来推理时延高、资源消耗大等挑战。

发表于 11-15 14:20 •768次阅读

使用vLLM+OpenVINO加速大语言模型<b class='flag-5'>推理</b>

高效大模型的推理综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效

发表于 11-15 11:45 •832次阅读

FPGA和ASIC在大模型推理加速中的应用

随着现在AI的快速发展，使用FPGA和ASIC进行推理加速的研究也越来越多，从目前的市场来说，有些公司已经有了专门做推理的ASIC，像Groq的LPU，专门针对大语言模型的推理做了优化，因此相比GPU这种通过计算平台，功耗更低、

发表于 10-29 14:12 •1104次阅读

FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的应用

当前主流的大模型对于底层推理芯片提出了哪些挑战

随着大模型时代的到来，AI算力逐渐变成重要的战略资源，对现有AI芯片也提出了前所未有的挑战：大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。

发表于 09-24 16:57 •862次阅读

沙特阿美携手Groq打造全球最大推理数据中心

石油巨头沙特阿美与AI芯片创新企业Groq宣布了一项重大合作，双方将共同在沙特阿拉伯建设一座全球规模领先的推理数据中心。据Groq官网消息，此次合作由沙特阿美的数字与技术子公司Aramco Digital牵头，双方已签署谅解备忘录，标志着项目正式启动。

发表于 09-19 18:03 •784次阅读

AMD助力HyperAccel开发全新AI推理服务器

HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业，致力于开发 AI 推理专用型半导体器件和硬件，最大限度提升推理工作负载的存储器带宽使用，并通过将此解决方案应用于大型语言模型来

发表于 09-18 09:37 •560次阅读

AMD助力HyperAccel开发全新AI<b class='flag-5'>推理</b>服务器

【飞凌嵌入式OK3576-C开发板体验】rkllm板端推理

交叉编译在完成模型的量化构建后，就能够在目标硬件平台OK3576上实现模型的推理功能了。板端推理的示例代码位于kllm-runtime/examples/rkllm_api_demo目录中，该

发表于 08-31 22:45

如何加速大语言模型推理

的主要挑战。本文将从多个维度深入探讨如何加速大语言模型的推理过程，以期为相关领域的研究者和开发者提供参考。

发表于 07-04 17:32 •732次阅读

芯片新战场，EDA如何拥抱新挑战？

）工具的需求。面对这些技术进步和市场需求变化，在芯片新战场上，堪称“芯片之母”的EDA又该如何拥抱这些新挑战？芯片新战场，挑战重重说起来RI

发表于 03-23 08:22 •807次阅读

<b class='flag-5'>芯片</b>新战场，EDA如何拥抱新<b class='flag-5'>挑战</b>？

深度探讨VLMs距离视觉演绎推理还有多远？

通用大型语言模型（LLM）推理基准：研究者们介绍了多种基于文本的推理任务和基准，用于评估LLMs在不同领域（如常识、数学推理、常识推理、事实推理

发表于 03-19 14:32 •410次阅读

英伟达要小心了！爆火的Groq芯片能翻盘吗？AI推理速度「吊打」英伟达？

随着科技的飞速发展，人工智能公司Groq挑战了英伟达的王者地位，其AI芯片不仅展现出卓越的实力，还拥有巨大的潜力。Groq设计了一种独特的推理代币经济学模式，该模式背后牵动着众多因素，却也引发了深度

发表于 03-08 09:44 •1224次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

推理芯片的最大挑战

评论