0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

不只是GPU,内存厂商们的AI野望

E4Life 来源:电子发烧友网 作者:周凯扬 2023-09-01 00:18 次阅读

电子发烧友网报道(文/周凯扬)在诸多云服务厂商或互联网厂商一头扎进GPU的疯抢潮后,不少公司也发现了限制AI大模型性能或是成本消耗的除了GPU以外,还有内存。内存墙作为横亘在AI计算和HPC更进一步的阻碍之一,在计算量井喷的今天,已经变得愈发难以忽视。所以,在今年的HotChips大会上,内存厂商们也竞相展示自己的内存技术在AI计算上的优势。

三星

三星作为最早一批开始跟进存内计算的公司,早在两年前的HotChips33上,就展示了HBM2-PIM的技术Aquabolt-XL。三星在去年底展示了用PIM内存和96个AMD Instinct MI100 GPU组建的大规模计算系统,并宣称这一配置将AI训练的速度提高了近2.5倍。

而今年的HotChips上,三星也着重点明了PIM和PNM技术在生成式AI这类热门应用上的优势。三星认为在ChatGPT、GPT-3之类的应用中,主要瓶颈出现在生成阶段的线性层上,这是因为GPU受到了内存限制且整个过程是线性顺序进行的。

在三星对GPT的分析中,其主要由概括和生成两大负载组成,其中概括考验的是计算单元的性能,而生成则考验的是内存的性能。而生成占据了绝大多数的运算次数和耗时,其中占据了60%到80%延迟的GEMV(矩阵向量操作)也就成了三星试图用PIM和PNM攻克的目标。

根据三星的说法,像GPT这类Transformer架构的模型,都可以将多头注意力(MHA)和前馈神经网络(FFN)完全交给PIM或PNM,完全利用他们的所有带宽,从而减少在推理上所花费的时间和能耗。三星也在单个AMD MI100-PIM的GPU上进行了试验,得出运行GPT模型时,在HBM-PIM的辅助下,能效是GPU搭配传统HBM的两倍,性能同样提升至两倍以上。

wKgZomTwaRqAN2Y0AAEQ1l7kLeE723.jpg
LPDDR-PIM概念 / 三星

除了HBM-PIM外,这次三星还展示了最新的LPPDR-PIM概念。除了云端生成式AI需要存内计算的辅助外,诸如智能手机这样的端侧生成式AI概念也被炒起来,所以LPPDR-PIM这样的存内计算技术,可以进一步保证续航的同时,也不会出现为了带宽内存使用超量的情况。

SK海力士

另一大韩国内存巨头SK海力士也没有闲着,在本次HotChips大会上,他们展示了自己的AiM存内加速器方案。相较三星而言,他们为生成式AI的推理负载准备的是基于GDDR6的存内计算方案。

GDDR6-AiM采用了1y的制造工艺,具备512GB/s内部带宽的同时,也具备32GB/s的外部带宽。且GDDR6-AiM具备频率高达1GHz的处理单元,算力可达512GFLOPS。GDDR6-AiM的出现,为存内进行GEMV计算提供了端到端的加速方案,比如乘法累加和激活函数等操作都可以在内存bank内同时进行,单条指令实现全bank操作提供更高的计算效率。

同时,SK海力士也已经考虑到了AiM的扩展性问题,比如单个AiM卡中集成了8个AiM封装,也就是8GB的容量和256个处理单元。但这类扩展方案最大的问题还是在软件映射、硬件架构和接口上,这也是绝大多数集成存内计算的新式内存面临的问题。

wKgaomTwaSaAfbrEAAGKrRvOuwQ093.jpg
AiM系统扩展性验证Demo / SK海力士


而SK海力士已经给出了这方面的解决方案,比如专门针对AiM的Tiling、基于AiM架构的控制器、路由和ALU等等。他们还展示了在两个FPGA上结合GDDR6-AiM的Demo,以及用于LLM推理的软件栈。与此同时,他们也还在探索AiM的下一代设计,比如如何实现更高的内存容量,用于应对更加庞大的模型。

写在最后

无论是三星还是SK海力士都已经在存内计算领域耕耘多年,此次AI热来势汹汹,也令他们研发速度进一步提快。毕竟如今能够解决大模型训练与推理的耗时与TCO的硬件持续大卖,如果存内计算产品商业化量产落地进展顺利,且确实能为AI计算带来助力的话,很可能会小幅提振如今略微萎缩的内存市场。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128890
收藏 人收藏

    评论

    相关推荐

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练
    的头像 发表于 12-19 17:54 84次阅读

    PON不只是破网那么简单

    大家有没有在网络卡顿的时候,心里默默吐槽“这破网”?今天要聊的PON(Passive Optical Network,无源光网络),可不是你心里那个“破”网,而是网络世界中的超级英雄家族——PON。   别急,我知道你在想什么,这听起来可能有点枯燥,但相信我,这绝对比你想象的要有趣得多! 1 PON,网络界的“超级英雄” PON,是指利用点对多点拓扑和分光器将数据从单个传输点传送到多个用户端点的光纤网络,由OLT(Optical Line Terminal,光线路终端),ONU(Optical Net
    的头像 发表于 12-04 09:08 207次阅读
    PON<b class='flag-5'>不只是</b>破网那么简单

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构,在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈,合并访存机制巧妙解决了内存带宽限制。NVIDIA
    发表于 11-24 17:12

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 256次阅读

    科技云报到:大模型时代下,向量数据库的野望

    科技云报到:大模型时代下,向量数据库的野望
    的头像 发表于 10-14 17:18 246次阅读

    精密空调——结构和功能揭秘!精密空调不只是调节温度#精密空调

    精密空调
    北京汇智天源
    发布于 :2024年08月30日 19:15:07

    不只是前端,后端、产品和测试也需要了解的浏览器知识(二)

    继上篇《 不只是前端,后端、产品和测试也需要了解的浏览器知识(一)》介绍了浏览器的基本情况、发展历史以及市场占有率。 本篇文章将介绍浏览器基本原理。 在掌握基本原理后,通过技术深入,在研发
    的头像 发表于 08-12 14:32 333次阅读
    <b class='flag-5'>不只是</b>前端,后端、产品和测试也需要了解的浏览器知识(二)

    为什么跑AI往往用GPU而不是CPU?

    今天,人工智能(AI)已经在各个领域遍地开花,无论身处哪个行业,使用AI来帮助获取业务洞察,并建立竞争优势,已经非常常见。不过一个有趣的现象是,在用户采购AI基础设施时,几乎所有厂商
    的头像 发表于 04-24 08:27 1869次阅读
    为什么跑<b class='flag-5'>AI</b>往往用<b class='flag-5'>GPU</b>而不是CPU?

    AI训练,为什么需要GPU

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人工智能(
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b>训练,为什么需要<b class='flag-5'>GPU</b>?

    新型的FPGA器件将支持多样化AI/ML创新进程

    作者:郭道正 职务:Achronix半导体中国区总经理 近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代
    的头像 发表于 04-02 15:25 326次阅读
    新型的FPGA器件将支持多样化<b class='flag-5'>AI</b>/ML创新进程

    国产GPUAI大模型领域的应用案例一览

    电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPUAI领域的重要性再次凸显。虽然相比英伟达等国际大厂,国产GPU起步较晚、声势较小。不过近几年,国内不少GPU
    的头像 发表于 04-01 09:28 3785次阅读
    国产<b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大模型领域的应用案例一览

    Achronix新推出一款用于AI/ML计算或者大模型的B200芯片

    近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临
    的头像 发表于 03-28 15:48 794次阅读
    Achronix新推出一款用于<b class='flag-5'>AI</b>/ML计算或者大模型的B200芯片

    FPGA在深度学习应用中或将取代GPU

    基础设施,人们仍然没有定论。如果 Mipsology 成功完成了研究实验,许多正受 GPU 折磨的 AI 开发者将从中受益。 GPU 深度学习面临的挑战 三维图形是 GPU 拥有如此
    发表于 03-21 15:19

    GPU交期缓解,AI服务器厂商营收暴涨

    电子发烧友网报道(文/周凯扬)AIGC在应用软件掀起的这股热潮背后,却隐藏着AI服务器组件缺货的难题。在云服务厂商和互联网厂商大肆采购AI GPU
    的头像 发表于 02-20 00:17 2796次阅读
    <b class='flag-5'>GPU</b>交期缓解,<b class='flag-5'>AI</b>服务器<b class='flag-5'>厂商</b>营收暴涨

    为什么GPU比CPU更快?

    大规模数据集时比CPU更快的根本原因。内存带宽:GPU内存带宽比CPU高得多。内存带宽是指数据在内存之间传输的速度。
    的头像 发表于 01-26 08:30 2395次阅读
    为什么<b class='flag-5'>GPU</b>比CPU更快?