随着大模型时代的到来,AI算力逐渐变成重要的战略资源,对现有AI芯片也提出了前所未有的挑战:大算力的需求、高吞吐量与低延时、高效内存管理、能耗等等。
存算一体架构是可能有效解决当前芯片瓶颈的路径之一,通过将数据存储与处理单元集成,显著减少了数据在芯片内部的传输,降低延迟和能耗,提高计算速度。
此外,针对大模型的特定需求,芯片设计也在不断创新,以更好地支持并行处理和高效率的数据流动。这些技术发展不仅对推动人工智能领域的进步至关重要,也为芯片设计和制造业带来了新的机遇和挑战。
Q1►当前主流的大模型对于底层推理芯片提出了哪些挑战?
1、算力需求:由于大模型计算量的提升,对算力的需求也飞速增长。考虑到芯片光罩面积的限制,一方面需要通过电路优化提升算力密度,另一方面需要通过先进集成等手段突破芯片面积的限制。
2、高吞吐量与低延时:大模型推理分为prefill和decoding两个阶段,两阶段的推理延迟分别影响用户得到首个token的延迟(time to first token,TTFT)和生成阶段逐token的输出延迟(time per output token,TPOT),优化两个阶段的延迟可以提升用户在使用推理服务时的体验。由于prefill阶段需要在单次推理处理完整的prompt输入,是计算密集的,所以prefill阶段需要通过提升芯片的算力来降低延迟。另一方面,decoding阶段中,每个请求只处理一个token,是访存密集的,因此需要提升芯片的访存带宽来降低延迟。
3、高效内存管理:在提供大模型推理服务时,不同用户的请求到达时间,prompt长度,以及生成长度均不相同,所以在动态batching时不同请求间的KV Cache长度往往不同,从而导致KV Cache的碎片化问题。因此,诸如vLLM等优化KV Cache的碎片化问题的内存管理方案被提出,从而显著提升GPU上的内存利用率。
4、能耗:对于每个sequence的生成,decoding阶段每次只处理单个token,从而导致在生成的过程中需要反复搬运权重到片上缓存,产生高访存能耗。
5、可编程性与灵活性:随着深度学习和人工智能领域快速发展,新的算法和模型不断涌现。芯片应具有一定的可编程性和灵活性,以适应这些变化,不仅仅针对当前的算法进行优化。
Q2►大模型时代的需求,存算一体芯片会是更优解吗?
1、存算一体的优势与大模型需求的契合点:CIM(Computing in Memory)具备高计算密度、高计算能效的优势,适合大模型Prefill阶段的处理。在同样芯片面积限制下,有望提供超过当前GPU的算力。另外,对图片、视频等领域生成模型,算力的需求将进一步上升,CIM高算力密度的优势可以进一步发挥。
2、方向一:近存路线:基于DRAM的近存计算架构能够处理decoding阶段访存密集的矩阵向量乘法操作。通过在DRAM的bank附近放置处理单元,它们可以减少搬运权重的能耗,并且通过近bank处理单元的并行计算提升访存带宽,从而获得推理加速。但是由于DRAM的工艺限制,近存处理单元的算力较弱,无法高效处理prefill阶段的计算密集算子,因此往往需要与GPU配合工作,完成整个推理流程。
3、方向二:近存+存算路线:CIM+PIM的混合异构方案,可以同时满足Prefill高算力和Decode高存储带宽和容量的需求,实现优势互补,超过当前的同构方案。
未来,随着技术进步和创新设计的不断涌现,芯片技术将进一步突破现有极限,实现更低的能耗和更高的计算性能。存算一体技术也将为芯片行业提供更多创新发展路径。
-
人工智能
+关注
关注
1792文章
47442浏览量
239004 -
存算一体
+关注
关注
0文章
102浏览量
4311 -
大模型
+关注
关注
2文章
2491浏览量
2870
原文标题:存算十问|(十):面向大模型时代,存算一体是更优解吗?
文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论