0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当前主流的大模型对于底层推理芯片提出了哪些挑战

后摩智能 来源:后摩智能 2024-09-24 16:57 次阅读

随着大模型时代的到来,AI算力逐渐变成重要的战略资源,对现有AI芯片也提出了前所未有的挑战:大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。

存算一体架构是可能有效解决当前芯片瓶颈的路径之一,通过将数据存储与处理单元集成,显著减少了数据在芯片内部的传输,降低延迟和能耗,提高计算速度。

此外,针对大模型的特定需求,芯片设计也在不断创新,以更好地支持并行处理和高效率的数据流动。这些技术发展不仅对推动人工智能领域的进步至关重要,也为芯片设计和制造业带来了新的机遇和挑战。

Q1►当前主流的大模型对于底层推理芯片提出了哪些挑战?

1、算力需求:由于大模型计算量的提升,对算力的需求也飞速增长。考虑到芯片光罩面积的限制,一方面需要通过电路优化提升算力密度,另一方面需要通过先进集成等手段突破芯片面积的限制。

2、高吞吐量与低延时:大模型推理分为prefill和decoding两个阶段,两阶段的推理延迟分别影响用户得到首个token的延迟(time to first token,TTFT)和生成阶段逐token的输出延迟(time per output token,TPOT),优化两个阶段的延迟可以提升用户在使用推理服务时的体验。由于prefill阶段需要在单次推理处理完整的prompt输入,是计算密集的,所以prefill阶段需要通过提升芯片的算力来降低延迟。另一方面,decoding阶段中,每个请求只处理一个token,是访存密集的,因此需要提升芯片的访存带宽来降低延迟。

3、高效内存管理:在提供大模型推理服务时,不同用户的请求到达时间,prompt长度,以及生成长度均不相同,所以在动态batching时不同请求间的KV Cache长度往往不同,从而导致KV Cache的碎片化问题。因此,诸如vLLM等优化KV Cache的碎片化问题的内存管理方案被提出,从而显著提升GPU上的内存利用率。

4、能耗:对于每个sequence的生成,decoding阶段每次只处理单个token,从而导致在生成的过程中需要反复搬运权重到片上缓存,产生高访存能耗。

5、可编程性与灵活性:随着深度学习和人工智能领域快速发展,新的算法和模型不断涌现。芯片应具有一定的可编程性和灵活性,以适应这些变化,不仅仅针对当前的算法进行优化。

Q2►大模型时代的需求,存算一体芯片会是更优解吗?

1、存算一体的优势与大模型需求的契合点:CIM(Computing in Memory)具备高计算密度、高计算能效的优势,适合大模型Prefill阶段的处理。在同样芯片面积限制下,有望提供超过当前GPU的算力。另外,对图片、视频等领域生成模型,算力的需求将进一步上升,CIM高算力密度的优势可以进一步发挥。

2、方向一:近存路线:基于DRAM的近存计算架构能够处理decoding阶段访存密集的矩阵向量乘法操作。通过在DRAM的bank附近放置处理单元,它们可以减少搬运权重的能耗,并且通过近bank处理单元的并行计算提升访存带宽,从而获得推理加速。但是由于DRAM的工艺限制,近存处理单元的算力较弱,无法高效处理prefill阶段的计算密集算子,因此往往需要与GPU配合工作,完成整个推理流程。

3、方向二:近存+存算路线:CIM+PIM的混合异构方案,可以同时满足Prefill高算力和Decode高存储带宽和容量的需求,实现优势互补,超过当前的同构方案。

未来,随着技术进步和创新设计的不断涌现,芯片技术将进一步突破现有极限,实现更低的能耗和更高的计算性能。存算一体技术也将为芯片行业提供更多创新发展路径。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46783

    浏览量

    237390
  • 存算一体
    +关注

    关注

    0

    文章

    100

    浏览量

    4284
  • 大模型
    +关注

    关注

    2

    文章

    2308

    浏览量

    2430

原文标题:存算十问|(十):面向大模型时代,存算一体是更优解吗?

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用vLLM+OpenVINO加速大语言模型推理

    随着大语言模型的广泛应用,模型的计算需求大幅提升,带来推理时延高、资源消耗大等挑战
    的头像 发表于 11-15 14:20 156次阅读
    使用vLLM+OpenVINO加速大语言<b class='flag-5'>模型</b><b class='flag-5'>推理</b>

    高效大模型推理综述

    模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力
    的头像 发表于 11-15 11:45 171次阅读
    高效大<b class='flag-5'>模型</b>的<b class='flag-5'>推理</b>综述

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型推理做了优化
    的头像 发表于 10-29 14:12 196次阅读
    FPGA和ASIC在大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>加速中的应用

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT问世以来,大模型遍地开花,承载大模型应用的高性能推理框架也不断推出,大有百家争鸣之势。在这种情况下,澎峰科技作为全球领先的智能计算服务提供商,在2023年11月25日发布了针对大语言
    的头像 发表于 09-29 10:14 374次阅读
    澎峰科技高性能大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLM解析

    主流芯片架构包括哪些类型

    主流芯片架构是芯片设计领域中的核心组成部分,它们决定了芯片的功能、性能、功耗等多个方面。当前,全球范围内
    的头像 发表于 08-22 11:08 794次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大
    的头像 发表于 07-24 11:38 759次阅读

    如何加速大语言模型推理

    的主要挑战。本文将从多个维度深入探讨如何加速大语言模型推理过程,以期为相关领域的研究者和开发者提供参考。
    的头像 发表于 07-04 17:32 459次阅读

    【大语言模型:原理与工程实践】大语言模型的应用

    。 关于大语言模型是否具备与人类“系统2”相似的能力,存在广泛的争议。然而,随着模型参数量的增加和大规模预训练的实施,大语言模型展现出了与人类相似的
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本,为故事创作等提供无限可能。大语言模型也面临挑战。一方面,其计算资源需求巨大,训练和推理耗时;另一方面,模型高度依赖数据,需要大
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    处理中预训练架构Transformer,以及这些技术在现实世界中的如何应用。通过具体案例的分析,作者展示了大语言模型在解决实际问题中的强大能力,同时也指出了当前技术面临的挑战和局限性。书中对大语言
    发表于 04-30 15:35

    思尔芯如何面对大模型芯片的复杂挑战

    在大语言模型时代,急剧增长的底层算力需求和多样化的创新应用催生了芯片行业的新机遇。
    的头像 发表于 03-20 17:29 407次阅读
    思尔芯如何面对大<b class='flag-5'>模型</b><b class='flag-5'>芯片</b>的复杂<b class='flag-5'>挑战</b>?

    Groq推出大模型推理芯片 超越了传统GPU和谷歌TPU

    Groq推出了模型推理芯片,以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU。
    的头像 发表于 02-26 10:24 958次阅读
    Groq推出大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b> 超越了传统GPU和谷歌TPU

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41

    澎峰科技发布大模型推理引擎PerfXLLM

    自从2020年6月OpenAI发布chatGPT之后,基于 Transformer 网络结构的 语言大模型(LLM) 引发了全世界的注意与追捧,成为了人工智能领域的里程碑事件。 但大模型推理所需
    的头像 发表于 11-25 15:35 1045次阅读
    澎峰科技发布大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLLM

    大型语言模型的逻辑推理能力探究

    最新研究揭示,尽管大语言模型LLMs在语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估基准,包含12个数据集,覆盖三大任务类型。
    的头像 发表于 11-23 15:05 925次阅读
    大型语言<b class='flag-5'>模型</b>的逻辑<b class='flag-5'>推理</b>能力探究