当前主流的大模型对于底层推理芯片提出了哪些挑战-电子发烧友网

随着大模型时代的到来，AI算力逐渐变成重要的战略资源，对现有AI芯片也提出了前所未有的挑战：大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。

存算一体架构是可能有效解决当前芯片瓶颈的路径之一，通过将数据存储与处理单元集成，显著减少了数据在芯片内部的传输，降低延迟和能耗，提高计算速度。

此外，针对大模型的特定需求，芯片设计也在不断创新，以更好地支持并行处理和高效率的数据流动。这些技术发展不仅对推动人工智能领域的进步至关重要，也为芯片设计和制造业带来了新的机遇和挑战。

Q1►当前主流的大模型对于底层推理芯片提出了哪些挑战？

1、算力需求：由于大模型计算量的提升，对算力的需求也飞速增长。考虑到芯片光罩面积的限制，一方面需要通过电路优化提升算力密度，另一方面需要通过先进集成等手段突破芯片面积的限制。

2、高吞吐量与低延时：大模型推理分为prefill和decoding两个阶段，两阶段的推理延迟分别影响用户得到首个token的延迟（time to first token，TTFT）和生成阶段逐token的输出延迟（time per output token，TPOT），优化两个阶段的延迟可以提升用户在使用推理服务时的体验。由于prefill阶段需要在单次推理处理完整的prompt输入，是计算密集的，所以prefill阶段需要通过提升芯片的算力来降低延迟。另一方面，decoding阶段中，每个请求只处理一个token，是访存密集的，因此需要提升芯片的访存带宽来降低延迟。

3、高效内存管理：在提供大模型推理服务时，不同用户的请求到达时间，prompt长度，以及生成长度均不相同，所以在动态batching时不同请求间的KV Cache长度往往不同，从而导致KV Cache的碎片化问题。因此，诸如vLLM等优化KV Cache的碎片化问题的内存管理方案被提出，从而显著提升GPU上的内存利用率。

4、能耗：对于每个sequence的生成，decoding阶段每次只处理单个token，从而导致在生成的过程中需要反复搬运权重到片上缓存，产生高访存能耗。

5、可编程性与灵活性：随着深度学习和人工智能领域快速发展，新的算法和模型不断涌现。芯片应具有一定的可编程性和灵活性，以适应这些变化，不仅仅针对当前的算法进行优化。

Q2►大模型时代的需求，存算一体芯片会是更优解吗？

1、存算一体的优势与大模型需求的契合点：CIM（Computing in Memory）具备高计算密度、高计算能效的优势，适合大模型Prefill阶段的处理。在同样芯片面积限制下，有望提供超过当前GPU的算力。另外，对图片、视频等领域生成模型，算力的需求将进一步上升，CIM高算力密度的优势可以进一步发挥。

2、方向一：近存路线：基于DRAM的近存计算架构能够处理decoding阶段访存密集的矩阵向量乘法操作。通过在DRAM的bank附近放置处理单元，它们可以减少搬运权重的能耗，并且通过近bank处理单元的并行计算提升访存带宽，从而获得推理加速。但是由于DRAM的工艺限制，近存处理单元的算力较弱，无法高效处理prefill阶段的计算密集算子，因此往往需要与GPU配合工作，完成整个推理流程。

3、方向二：近存+存算路线：CIM+PIM的混合异构方案，可以同时满足Prefill高算力和Decode高存储带宽和容量的需求，实现优势互补，超过当前的同构方案。

未来，随着技术进步和创新设计的不断涌现，芯片技术将进一步突破现有极限，实现更低的能耗和更高的计算性能。存算一体技术也将为芯片行业提供更多创新发展路径。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47442

浏览量
239004
存算一体

存算一体

+关注

关注
0

文章
102

浏览量
4311
大模型

大模型

+关注

关注
2

文章
2491

浏览量
2870

原文标题：存算十问｜（十）：面向大模型时代，存算一体是更优解吗？

文章出处：【微信号：后摩智能，微信公众号：后摩智能】欢迎添加关注！文章转载请注明出处。

智谱GLM-Zero深度推理模型预览版正式上线

近日，智谱公司宣布其深度推理模型GLM-Zero的初代版本——GLM-Zero-Preview已正式上线。这款模型是智谱首个基于扩展强化学习技术训练的推理模型，标志着智谱在AI推理领域

发表于 01-02 10:55 •123次阅读

如何开启Stable Diffusion WebUI模型推理部署

发表于 12-11 20:13 •126次阅读

如何开启Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b>部署

复旦提出大模型推理新思路：Two-Player架构打破自我反思瓶颈

在 AI 领域，近期的新闻焦点无疑是关于「Scaling Law 是否撞墙？」的辩论。这一曾经被视作大模型发展的第一性原理，如今却遭遇了挑战。在这样的背景下，研究人员开始意识到，与其单纯堆砌

发表于 12-06 11:24 •205次阅读

复旦<b class='flag-5'>提出</b>大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>新思路：Two-Player架构打破自我反思瓶颈

阿里云开源推理大模型QwQ

近日，阿里云通义团队宣布推出全新AI推理模型QwQ-32B-Preview，并同步实现了开源。这一举措标志着阿里云在AI推理领域迈出了重要一步。据评测数据显示，QwQ预览版本已具备研究生水平的科学

发表于 11-29 11:30 •585次阅读

使用vLLM+OpenVINO加速大语言模型推理

随着大语言模型的广泛应用，模型的计算需求大幅提升，带来推理时延高、资源消耗大等挑战。

发表于 11-15 14:20 •454次阅读

使用vLLM+OpenVINO加速大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

高效大模型的推理综述

大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而，大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力

发表于 11-15 11:45 •456次阅读

高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>综述

FPGA和ASIC在大模型推理加速中的应用

随着现在AI的快速发展，使用FPGA和ASIC进行推理加速的研究也越来越多，从目前的市场来说，有些公司已经有了专门做推理的ASIC，像Groq的LPU，专门针对大语言模型的推理做了优化

发表于 10-29 14:12 •540次阅读

FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速中的应用

主流芯片架构包括哪些类型

主流芯片架构是芯片设计领域中的核心组成部分，它们决定了芯片的功能、性能、功耗等多个方面。当前，全球范围内

发表于 08-22 11:08 •1205次阅读

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大

发表于 07-24 11:38 •924次阅读

如何加速大语言模型推理

的主要挑战。本文将从多个维度深入探讨如何加速大语言模型的推理过程，以期为相关领域的研究者和开发者提供参考。

发表于 07-04 17:32 •565次阅读

【大语言模型：原理与工程实践】大语言模型的应用

。关于大语言模型是否具备与人类“系统2”相似的能力，存在广泛的争议。然而，随着模型参数量的增加和大规模预训练的实施，大语言模型展现出了与人类相似的

发表于 05-07 17:21

【大语言模型：原理与工程实践】揭开大语言模型的面纱

用于文本生成，根据提示或上下文生成连贯、富有创造性的文本，为故事创作等提供无限可能。大语言模型也面临挑战。一方面，其计算资源需求巨大，训练和推理耗时；另一方面，模型高度依赖数据，需要大

发表于 05-04 23:55

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

处理中预训练架构Transformer，以及这些技术在现实世界中的如何应用。通过具体案例的分析，作者展示了大语言模型在解决实际问题中的强大能力，同时也指出了当前技术面临的挑战和局限性。书中对大语言

发表于 04-30 15:35

思尔芯如何面对大模型芯片的复杂挑战？

在大语言模型时代，急剧增长的底层算力需求和多样化的创新应用催生了芯片行业的新机遇。

发表于 03-20 17:29 •461次阅读

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轰动，超越了传统GPU和谷歌TPU。

发表于 02-26 10:24 •1067次阅读

搜索历史

当前主流的大模型对于底层推理芯片提出了哪些挑战

评论

智谱GLM-Zero深度推理模型预览版正式上线

如何开启Stable Diffusion WebUI模型推理部署

复旦提出大模型推理新思路：Two-Player架构打破自我反思瓶颈

阿里云开源推理大模型QwQ

使用vLLM+OpenVINO加速大语言模型推理

高效大模型的推理综述

FPGA和ASIC在大模型推理加速中的应用

主流芯片架构包括哪些类型

LLM大模型推理加速的关键技术

如何加速大语言模型推理

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】揭开大语言模型的面纱

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

思尔芯如何面对大模型芯片的复杂挑战？

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU