0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达江郎才尽,下一代芯片架构变化只是封装

佐思汽车研究 来源:佐思汽车研究 2023-09-28 15:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2023年8月23日,英伟达宣布下一代汽车芯片Thor量产时间略有推迟,正式量产在2026财年,英伟达的财政年度与自然年相差11个月,也就是说正式量产最迟可能是2026年1月。

FY2019-FY2024H1英伟达自动驾驶AI座舱业绩情况

66a75e76-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

英伟达通常两年升级一次芯片架构。在2022年英伟达透露即将在2024年推出Blackwell架构,而Thor也会采用Blackwell架构。

Blackwell是致敬美国统计学家,加利福尼亚大学伯克利分校统计学名誉教授,拉奥-布莱克韦尔定理的提出者之一David Harold Blackwell。

英伟达Blackwell架构

Blackwell架构将采用COPA-GPU设计。很多人认为COPA-GPU就是Chiplet,不过COPA-GPU不是严格意义上的Chiplet,众所周知,英伟达一直对Chiplet缺乏兴趣。在2017年英伟达曾提出非常近似Chiplet的MCM设计,但在2021年12月,英伟达发表了一篇名为《GPU Domain Specialization via Composable On-Package Architecture》的论文,应该就是Blackwell架构的论文,这篇论文则否定了Chiplet设计。

2017年6月英伟达发表论文《MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability》提出了MCM设计。

MCM-GPU设计

671c1d56-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

MCM-GPU设计基本就是现在比较火爆的Chiplet设计,但英伟达一直未将MCM付诸实际设计中。英伟达一直坚持Monolithic单一光刻设计,这是因为die与die之间通讯带宽永远无法和monolithic内部的通讯带宽相比,换句话说Chiplet不适合高AI算力场合,在纯CPU领域是Chiplet的最佳应用领域。

MCM-GPU架构

672f363e-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

英伟达2017年论文提及的MCM-GPU架构如上图。英伟达在MCM-GPU架构里主要引入了L1.5缓存,它介于L1缓存和L2缓存之间,XBAR是Crossbar,英伟达的解释是The Crossbar (XBAR) is responsible for carrying packets from a given source unit to a specific destination unit,有点像交换或路由。GPM就是GPU模块。

不同容量L1.5缓存下各种应用的速度对比

6747d770-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

上图是英伟达2017年论文仿真不同容量L1.5缓存下各种应用的速度对比,不过彼时各种应用还是各种浮点数学运算和存储密集型算子,而非深度学习

Transformer时代相对CNN时代,存储密集型算子所占比例大幅增加。

67507312-5db1-11ee-939d-92fbcf53809c.png

676828b8-5db1-11ee-939d-92fbcf53809c.png

以上是Transformer的计算过程,在此计算过程中,矩阵乘法是典型的计算密集型算子,也叫GEMM(通用矩阵乘法)。存储密集型算子分两种,一种是矢量或张量的神经激活,多非线性运算,也叫GEMV (通用矩阵矢量乘法)。另一种是逐点元素型element-wise,典型的如矩阵反转,实际没有任何运算,只是存储行列对调。

三星对GPT大模型workload分析

678f1b12-5db1-11ee-939d-92fbcf53809c.png

图片来源:三星

上图中,在运算操作数量上,GEMV所占比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV;GEMM占比只有2.12%;非线性运算也就是神经元激活部分占的比例也远高于GEMM。

三星对GPU利用率的分析

6799a14a-5db1-11ee-939d-92fbcf53809c.png

图片来源:三星

上图可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。GPU的灵活性还是比较高的,如果换做灵活性比较差的AI专用加速器,如谷歌的TPU,那么GEMV的利用率会更低,不到10%甚至5%。

三星的GPT瓶颈分析

67b0019c-5db1-11ee-939d-92fbcf53809c.png

图片来源:三星

Roof-line访存与算力模型

67cb4966-5db1-11ee-939d-92fbcf53809c.png

图片来源:互联网

上图是鼎鼎大名的roof-line访存与算力模型。

COPA-GPU架构

67d48008-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

上图是2021年12月英伟达论文提出的COPA-GPU架构,实际就是把一个特别大容量的L2缓存die分离出来。因为如果还是monolithic设计,那么整个die的面积会超过1000平方毫米,不过***决定了芯片的最大die size不超过880平方毫米,所以必须将L2分离。

67ef0162-5db1-11ee-939d-92fbcf53809c.png

注:GPU-N就是英伟达的COPA-GPU。

图片来源:英伟达

不同容量L2缓存对应的延迟

6805ca46-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

上图是不同容量L2缓存对应的延迟情况,显然L2缓存越高,延迟越低,不过在small-batch时不明显。

几种COPA-GPU的封装分析

6814f318-5db1-11ee-939d-92fbcf53809c.png

图片来源:英伟达

从英伟达的论文里我们看不到架构方面的丝毫改进,只有封装领域的改变。这篇论文实际应该由台积电来写,因为英伟达完全无法掌控芯片的封测工艺,CoWoS就是为英伟达这种设计而设计的,而CoWoS诞生在10年以前。

大模型不断消耗更多的算力和存储,这显然违背了自然界效率至上的原则,或许人类正在错误的道路上狂奔。

免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5283

    浏览量

    136093
  • 芯片架构
    +关注

    关注

    1

    文章

    33

    浏览量

    14904
  • 英伟达
    +关注

    关注

    23

    文章

    4116

    浏览量

    99645

原文标题:英伟达江郎才尽,下一代芯片架构变化只是封装

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    FT 5000 Smart Transceiver:下一代智能网络芯片的卓越之选

    FT 5000 Smart Transceiver:下一代智能网络芯片的卓越之选 在智能网络领域,芯片技术的发展日新月异。今天,我们要深入探讨款具有里程碑意义的产品——FT 5000
    的头像 发表于 03-28 09:05 298次阅读

    伟创力携手博通,推进下一代AI液冷解决方案落地

    近日,伟创力宣布旗下先进液冷解决方案公司 JetCool 与 博通(Broadcom)展开合作,为博通 下一代 AI XPU(定制化 AI 计算加速芯片) 提供创新液冷解决方案,助力高性能 AI
    的头像 发表于 03-17 10:44 738次阅读
    伟创力携手博通,推进<b class='flag-5'>下一代</b>AI液冷解决方案落地

    面向下一代GPU VPD架构的供电系统超低压大电流测试方案 —— 费思N系列电子负载技术解析与应用实践

    LPD(横向供电)架构电流路径长、寄生参数大、动态响应慢等原因,已无法满足下一代GPU的供电需求。 今年CES上,英伟达NVIDIA确定Rubin会用 VPD(垂直供电) 方案。根据英伟
    的头像 发表于 03-13 17:26 907次阅读
    面向<b class='flag-5'>下一代</b>GPU VPD<b class='flag-5'>架构</b>的供电系统超低压大电流测试方案 —— 费思N系列电子负载技术解析与应用实践

    华为在MWC 2026正式发布下一代WAN目标网架构

    在MWC26巴塞罗那期间,华为数据通信产品线总裁王雷在产品与解决方案发布会上正式发布了下一代WAN目标网架构。他表示,面向智能体互联网时代,华为从安全韧性、多维感知、网络自治三个维度全面升级IP承载网,助力运营商构建自主防御的网络底座,保障体验并加速增收,提升网络效率,开
    的头像 发表于 03-05 11:12 579次阅读

    进迭时空再获数亿元融资,下一代 RISC-V AI 芯片 K3 即将发布

    进迭时空再获数亿元融资,下一代 RISC-V AI 芯片 K3 即将发布
    的头像 发表于 01-15 19:07 602次阅读
    进迭时空再获数亿元融资,<b class='flag-5'>下一代</b> RISC-V AI <b class='flag-5'>芯片</b>  K3 即将发布

    罗姆面向下一代800 VDC架构发布电源解决方案白皮书

    ROHM(罗姆半导体)宣布,作为半导体行业引领创新的主要企业,发布基于下一代800 VDC架构的AI数据中心用的先进电源解决方案白皮书。 本白皮书作为2025年6月发布的“罗姆为英伟达800V
    的头像 发表于 11-04 16:45 926次阅读

    Microchip推出下一代Switchtec Gen 6 PCIe交换芯片

    随着人工智能(AI)工作负载和高性能计算(HPC)应用对数据传输速度与低延迟的需求持续激增,Microchip Technology Inc.(微芯科技公司)宣布推出下一代Switchtec Gen 6 PCIe交换芯片
    的头像 发表于 10-18 11:12 2121次阅读

    Telechips与Arm合作开发下一代IVI芯片Dolphin7

    Telechips宣布,将在与 Arm的战略合作框架下,正式开发下一代车载信息娱乐系统(IVI)系统级芯片(SoC)“Dolphin7”。
    的头像 发表于 10-13 16:11 1456次阅读

    英伟下一代Rubin芯片已流片

    为进入市场做准备,Rubin架构将会有6个芯片,这些芯片都已经流片。这消息在半导体和人工智能领域引起了广泛关注,预示着英伟达在
    的头像 发表于 09-12 17:15 2043次阅读

    适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    电子发烧友网为你提供()适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM相关产品参数、数据手册,更有适用于下一代 GGE 和 HSPA 手机的多模/多频段 PAM的引脚图、接线图、封装
    发表于 09-05 18:34
    适用于<b class='flag-5'>下一代</b> GGE 和 HSPA 手机的多模/多频段 PAM skyworksinc

    安森美携手英伟达推动下一代AI数据中心发展

    安森美(onsemi,美国纳斯达克股票代号:ON)宣布与英伟达(NVIDIA)合作,共同推动向800V直流(VDC)供电架构转型。这变革性解决方案将推动下一代人工智能(AI)数据中心
    的头像 发表于 08-06 17:27 1719次阅读

    驱动下一代E/E架构的神经脉络进化—10BASE-T1S

    随着“中央+区域”架构的演进,10BASE-T1S凭借其独特优势,将成为驱动下一代汽车电子电气(E/E)架构“神经系统”进化的关键技术。
    的头像 发表于 07-08 18:17 797次阅读
    驱动<b class='flag-5'>下一代</b>E/E<b class='flag-5'>架构</b>的神经脉络进化—10BASE-T1S

    下一代高速芯片晶体管解制造问题解决了!

    ,10埃)开始直使用到A7。 从这些外壁叉片晶体管的量产中获得的知识可能有助于下一代互补场效应晶体管(CFET)的生产。 目前,领先的芯片制造商——英特尔、台积电和三星——正在利用
    发表于 06-20 10:40

    下一代PX5 RTOS具有哪些优势

    许多古老的RTOS设计至今仍在使用,包括Zephyr(1980年)、Nucleus(1990年)和FreeRTOS(2003年)。所有这些旧设计都有专有的API,通常更大、更慢,并且缺乏下一代RTOS的必要安全认证和功能。
    的头像 发表于 06-19 15:06 1307次阅读

    NVIDIA 采用纳微半导体开发新一代数据中心电源架构 800V HVDC 方案,赋能下一代AI兆瓦级算力需求

    全球 AI 算力基础设施革新迎来关键进展。近日,纳微半导体(Navitas Semiconductor, 纳斯达克代码:NVTS)宣布参与NVIDIA 英伟达(纳斯达克股票代码: NVDA) 下一代
    发表于 05-23 14:59 3363次阅读
    NVIDIA 采用纳微半导体开发新<b class='flag-5'>一代</b>数据中心电源<b class='flag-5'>架构</b> 800V HVDC 方案,赋能<b class='flag-5'>下一代</b>AI兆瓦级算力需求