0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

缓解AI推理算力焦虑,高带宽GDDR6成杀手锏?

Rambus 蓝铂世科技 来源:芯东西 2023-06-02 15:49 次阅读

芯东西 5 月 22 日报道,生成式 AI 的日益火爆,正对数据中心内存性能提出更加苛刻的要求。无论是云端 AI 训练还是向网络边缘转移的 AI 推理,都需要高带宽、低时延的内存。迈向高性能 GDDR6 内存接口已是大势所趋。

近日,推出业界领先 24Gb/s GDDR6 PHY 的美国半导体 IP 和芯片供应商 Rambus,其两位高管与芯东西等媒体进行线上交流,分享了 Rambus 在 GDDR6 领域的技术创新及行业发展趋势。

"ChatGPT 等 AIGC 应用与我们公司产品组合是非常契合的。"Rambus 大中华区总经理苏雷说,Rambus China 立足于中国市场,愿意更多、更紧密地支持中国公司在 ChatGPT 产业的发展,为他们保驾护航,"Rambus 面对中国客户的需求,有最好的技术、最快的响应和最好的技术支持来服务中国市场。"

据 Rambus IP 核产品营销高级总监 Frank Ferro 分享,AI 推理应用对带宽的需求通常在 200 到 500Gb/s 的范围之间波动,每一个 GDDR6 设备的带宽都可以达到 96Gb/s,因此通过将 4-5 个 GDDR6 设备组合在一起,就能轻松满足 500Gb/s 及以下的带宽需求。

他谈道,如果用到一个 HBM3 设备,基本上会把这个带宽需求的数字翻倍,能够达到接近 800Gb/s 的带宽,而这超过了 AI 推理本身所需要的 400 到 500Gb/s 带宽,会使成本增加 3~4 倍。在这种条件下,HBM 并非一个经济高效的选择,GDDR6 则是一个更好的替代。

他建议按需选择 HBM 或是 GDDR6 内存,对于对高带宽和低延迟有很高要求的 AI 训练场景,HBM 可能是更好的选择;对于需要更大容量、更高带宽的 AI 推理场景,GDDR6 会是更合适的选择。

高性能内存和互连方案,支持下一代数据中心发展

Rambus 大中华区总经理苏雷谈道,Rambus 主要业务包含基础专利授权、芯片 IP 授权和内存接口芯片。其中芯片 IP 又主要分为接口 IP 和安全 IP。其技术和产品面向数据密集型市场,包括数据中心、5G物联网 IoT、汽车等细分市场,后续还将推出 CXL 家族各产品组合芯片。

b3cf8354-fbd7-11ed-90ce-dac502259ad0.jpg

面向数据中心,Rambus 非常注重产品和方案的易用性,通过一站式的解决方案以及完善的服务机制,使产品方案变得更易在客户端集成使用。Rambus 陆续推出了各内存子系统、接口子系统,提供业界领先、可靠的数据传输。其 GDDR6 接口子系统率先实现高达 24Gb/s 的内存接口数据速率,并能为每个 GDDR6 内存设备提供最高达到 96Gb/s 的带宽。

Rambus 的内存接口芯片产品不断提高数据中心内存模块的速度和容量,同时它拥有非常丰富而全面的安全 IP 产品线,对用于静态数据以及动态数据安全保护都有着专门安全的产品方案。

总体来说,Rambus 通过领先的高性能内存和互联解决方案以及硬件级安全,支持下一代数据中心的发展。其产品应用领域聚焦于服务器主内存、人工智能和网络加速器、智能网卡、网络存储、网络交换机以及内存扩展和池化等。

b3f79e98-fbd7-11ed-90ce-dac502259ad0.jpg

内存是未来 AI 性能的关键

Rambus IP 核产品营销高级总监 Frank Ferro 着重分享了迄今市场推动高性能需求的主要驱动力,以及未来如何更好满足 AI 性能需求。

数据需求依旧呈现上涨趋势。ChatGPT 等 AI 相关应用快速发展,对内存带宽需求旺盛,因此市面上越来越多公司开始专注于开发自己个性化、定制化的处理器产品,以更好地满足神经网络以及专属应用的需求。

Frank Ferro 强调说,尽管算力增长非常显著,但带宽的进步与之并不匹配,即现有高算力的基础之上,很多的 GPU 资源其实并没有得到充分的占用和利用,这造成了现在的困境。

AI 训练环节需要录入大量数据进行分析,需要消耗大量算力。AI 推理环节对算力的需求会大幅下降,但对成本和功耗更加敏感。Frank Ferro 谈道,一个重要趋势是 AI 推理越来越多地向边缘设备上进行集成和转移。在这个变化过程中,拥有更高带宽、更低时延特性的 GDDR6 方案,能够帮助边缘端更好地处理数据。

对带宽需求进一步的增加,驱动了像 Rambus 这样的公司不断地在去打造更加新一代的产品,不断地提高内存带宽以及接口带宽的相关速度。

GDDR6 能够提供 AI 推理所需的内存性能

Rambus 有着丰富的接口 IP 产品组合,同时也提供像 DDR、LPDDR 以及 HBM 等产品,并非常关注 SerDes 产品的开发,主要聚焦于 PCIe 和 CXL 接口,会开发配套的 PHY 及控制器。Rambus 的 HBM 产品拥有领先的市占率,同时其 HBM3 产品已经能够提供高达 8.4Gbps/s 的数据传输速率。

b43677c6-fbd7-11ed-90ce-dac502259ad0.jpg

其全新 GDDR6 PHY 及控制器的配套产品已达到业界领先的 24Gb/s 的数据传输速率,可为 AI 推理等应用场景带来巨大性能优势和收益。此外,该产品在功耗管理方面优势明显,并实现了 PHY 以及控制器的完整集成,即客户收到产品后,可以直接对其子系统进行定制化应用。

b4563b92-fbd7-11ed-90ce-dac502259ad0.jpg

如图是 GDDR6 内存接口系统,Rambus 提供的是中间标蓝的两个重要环节,也就是完整的子系统。Rambus 会根据客户具体应用场景和实际的诉求对子系统来进行优化,并将其作为完整的子系统来交付给客户。

clamshell 模式指每个信道可支持两个 GDDR6 的设备。换句话说,在 clamshell 模式之下,整个容量是直接翻倍乘以 2 的。值得一提的是,GDDR6 现已支持先进的 FinFET 工艺节点环境。

此外,Rambus 也会针对 PCB 以及封装提供相关的参考设计,同时内部有信号完整度和边缘完整性方面的专家,来帮助客户完成整个设计工作。

市面上很多 GPU 加速器都已经用到 GDDR6。由于在成本和性能之间达到不错的平衡,GDDR6 成为在 AI 应用场景下比较合理的产品和选择。而 Rambus 拥有领先的 SI/PI 专业知识,可以进行早期的协同设计和开发,确保 GDDR6 产品的性能表现,也能更好地去缩短产品的上市时间。

结语:在带宽、成本、方案复杂性之间实现平衡

随着 AI 应用趋于盛行,苏雷谈道,下游厂商首先关注高带宽,并开始关注方案的成本和复杂性,"GDDR 技术是在带宽、成本和方案复杂性的各因素之间提供了一个非常完美的折中技术方案。" 他预计到 2025 年或 2026 年市场上会出现使用 GDDR6 IP 的芯片。

进入全新的 GDDR6 时代,相关产品已开始采用 16 位的双读写通道。双读写通道加起来是 32 位的数据宽度,而 GDDR6 内存有 8 个双读写通道,总共可实现 256 位的数据传输宽度,所以能够显著提高数据传输的速度和效率,系统层效率和功耗管理也能得到进一步的优化。

除了适用于 AI 推理场景外,Frank Ferro 说,GDDR6 也会在图形领域和一些网络应用场景中起到重要作用,能够大幅降低网络边缘设备对 DDR 数量的需求。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    452

    文章

    50150

    浏览量

    420476
  • 控制器
    +关注

    关注

    112

    文章

    16073

    浏览量

    176964
  • AI
    AI
    +关注

    关注

    87

    文章

    29659

    浏览量

    267990

原文标题:【媒体报道】缓解 AI 推理算力焦虑,高带宽 GDDR6 成杀手锏?

文章出处:【微信号:Rambus 蓝铂世科技,微信公众号:Rambus 蓝铂世科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    下一代高端显卡标配,容量和速度双翻倍的GDDR7登场!

    大量用于渲染或计算的数据,其本身需要具备极快的数据传输速度。   如果我们除去各大AI GPU搭载的HBM的话,目前主流的消费级GPU仍在采用GDDR6GDDR6最早是由三星在2016年的HotChip提出来的,随后三星、美光
    的头像 发表于 03-08 09:04 1684次阅读
    下一代高端显卡标配,容量和速度双翻倍的<b class='flag-5'>GDDR</b>7登场!

    OpenAI开启推理算新Scaling Law,AI PC和CPU的机会来了

    从大模型应用的角度看,知识检索和AI推理将不再泾渭分明,而是深度交织、彼此强化。在这样一个智能融合的未来图景中,CPU作为连接存储、网络和各类加速器的纽带,其地位将变得举足轻重。
    的头像 发表于 09-27 16:20 559次阅读
    OpenAI开启<b class='flag-5'>推理算</b><b class='flag-5'>力</b>新Scaling Law,<b class='flag-5'>AI</b> PC和CPU的机会来了

    AI网络物理层底座: 大算芯片先进封装技术

    的基础。而Chiplet先进封装技术让AI训练/推理芯片的量产成为可能,所以AI网络的物理层底座即芯片先进封装技术。“ AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度
    发表于 09-11 09:47 401次阅读
    <b class='flag-5'>AI</b>网络物理层底座: 大算<b class='flag-5'>力</b>芯片先进封装技术

    英伟达推出搭载GDDR6显存的GeForce RTX 4070显卡

    面对全球GDDR6X显存供应的严峻挑战,英伟达今日宣布了一项灵活应变的市场策略:正式推出搭载GDDR6显存的GeForce RTX 4070显卡,旨在有效缓解市场对这一热门型号显卡的急切渴望。此举
    的头像 发表于 08-21 15:09 502次阅读

    成都汇阳投资关于跨越带宽增长极限,HBM 赋能AI新纪元

    。 内存难以跟上AI硬件的计算速度,限制了AI 芯片性能发挥,形成了“ 内存墙 ” ; 2)GDDR5限制了外形尺寸:为实现带宽,越
    的头像 发表于 07-04 10:55 586次阅读

    美光出样业界容量密度最高新一代 GDDR7 显存

    β(1-beta)DRAM 技术和创新架构,以优化的功耗设计打造了速率高达 32 Gb/s 的高性能内存。美光 GDDR7 的系统带宽超过 1.5 TB/s,2 较 GDDR6 提升高达 60%,3 并配备四个独立
    的头像 发表于 06-05 16:52 974次阅读

    如何基于OrangePi AIpro开发AI推理应用

    香橙派AIpro开发板采用昇腾AI技术路线,接口丰富且具有强大的可扩展性,提供8/20TOPS澎湃算,可广泛使用于AI边缘计算、深度视觉学习及视频流AI分析、视频图像分析、自然语言处
    的头像 发表于 06-04 14:23 432次阅读
    如何基于OrangePi AIpro开发<b class='flag-5'>AI</b><b class='flag-5'>推理</b>应用

    AMD RDNA4或采用GDDR6显存,Navi 4X或Navi 4C具备216个计算单元 

    因受限 RDNA 3 世代尴尬处境,AMD 下一代 RDNA4 游戏显卡似乎选择避开与英伟达在旗舰级别产品上的竞争。据消息人士 Kepler 透露,AMD 下一代 RDNA4 游戏显卡将全部采用 18Gbps 的 GDDR6 显存,而英伟达则可能使用更强大的 GDDR7
    的头像 发表于 04-28 14:29 654次阅读

    Rambus推GDDR7内存控制器IP满足AI应用需求

    据报道,该公司的 GDDR7 控制器采用 PAM3 信号,运行速度高达 40 Gbps,能为 GDDR7 存储器设备提供 160 GB/s 的吞吐量,相比其自身研发的GDDR6 控制器,提升了 67%。
    的头像 发表于 04-23 15:52 380次阅读

    英伟达、AMD新款显卡或仍配备2GB GDDR7显存

    据悉,现行GDDR6显存每模块采用8GB显存容量,对此,@kopite7kimi援引内部消息称,英伟达即将发布的GeForce RTX 5090显卡并无内存翻倍的可能性。
    的头像 发表于 03-08 14:54 626次阅读

    三星展示GDDR7技术:优化TRX均衡与ZQ校准,提升传输速度

    GDDR7将运用PAM3编码方式,这种介于PAM4和NRZ之间的技术可提高周期内数据传送率,相较NRZ技术降低了对总线频率的依赖,获得比GDDR6更高性能且能耗更低的特性。
    的头像 发表于 01-29 11:20 644次阅读

    三星将展示16Gb GDDR7技术,重点关注PAM3优化TRX均衡和ZQ校准

    该款高性能的 DRAM 采用 PAM3 编码技术,兼具 PAM4 和 NRZ 的优点,相较于 NRZ,它能够以更高的数据传输率运行,且无需过高的内存总线频率,表现优于 GDDR6,能耗及成本则低于 GDDR6X。
    的头像 发表于 01-29 10:13 929次阅读

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41

    问界新M7声学系统有何稀奇

     问界新M7是华为推出的一款智能座舱车型,其中的鸿蒙智能座舱被称为其“杀手锏”。该系统可以实现手机与车机之间的无缝联动交互。
    的头像 发表于 12-08 16:01 1703次阅读

    利用搭载全域硬2D NoC的FPGA器件去完美实现智能化所需的带宽低延迟计算

    在该FPGA器件的外围,这个硬2D NoC连接到所有高速接口:包括多个400G以太网、PCIe Gen5、GDDR6和DDR4/5端口。这使得Achronix的Speedster7t成为了业界第一款
    的头像 发表于 11-24 16:19 373次阅读