0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Ampere架构解析:相比上一代做了哪些提升

工程师邓生 来源:中关村在线 作者:曲楠 2020-12-11 17:22 次阅读

持续了一个月的“显卡发布季”已经告一段落,截止目前NVIDIA发布了GeForce RTX 3060 Ti/3070/3080/3090共4个型号的显卡,相比上一代显卡,RTX 30系显卡再次做到了性能翻倍的神话。

除了性能上的提升,新的NVIDIA Ampere架构还带来了第二代RT Core和第三代Tensor,虽然RTX 30系显卡拥有诸多提升,但价格却与上一代显卡相同。

在9月2日发布会当天,虽然过程仅有短短的40分钟,却震惊了全世界的用户。

算力提升

下面我们就来看看,“有史以来最伟大性能提升”相比上一代的NVIDIA Turing架构,做了哪些提升。

第一代RTX架构Turing

第二代RTX架构 Ampere

首先来简单回顾一下在9月2日发布会的PPT上我们都看到了什么,相较于初代的Turing RTX架构,NVIDIA Ampere架构在算力上有着成倍的增长,每个时钟执行2次着色器运算。

而Turing为1次,着色器性能达到30 TFLOPS单精度性能,而Turing为11 TFLOPS。

NVIDIA Ampere架构翻倍了光线与三角形的相交吞吐量,RT Core达到58 RT TFLOPS,而Turing为34 RT TFLOPS。

另外在全新的Tensor Core中,可自动识别并消除不太重要的DNN权重,处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

全新的NVIDIA Ampere GPU核心拥有280亿个晶体管,628平方毫米的面积,基于三星的8nm NVIDIA定制工艺,来自美光的GDDR6X显存,以及我们上面说的,三大处理核心均为初代Turing的两倍速率,构成了有史以来性能最强大的Ampere。

SM单元的改变

而NVIDIA Ampere架构的强大性能并不是NVIDIA一蹴而就,可以说在20系显卡中所采用的Turing架构功不可没,下面我们先来看看完整的GA102核心。

完整的GA102 GPU包含7个GPC(图形处理集群)42个TPC(纹理处理集群)以及84个SM(流处理器)组成。

GPC是占据主导地位的高级模块,拥有所有的关键图形处理单元,每个GPC包含一个专用光栅引擎。

在新的NVIDIA Ampere架构中,每个GPC还包含了两个ROP分区,每个分区包含8个ROP单元。下面我们来看看每个SM单元的变化。

在每个SM中,包含四个大的处理分区共128个CUDA核心,4个第三代Tensor Core,1个第二代RT Core,1个256 KB的缓存文件,1个128 KB的L1缓存,这个L1缓存可以根据不同的工作需求来调配缓存,工作效率发挥至最大。

另外大家都知道本次RTX 3080的CUDA数量暴增至8704个,而RTX 3090的CUDA数量更是达到了惊人的10496个。

但是大家要知道专业计算卡Tesla A100的GA100核心,拥有更大的核心面积,更多的晶体管数量,理论上只有8192个CUDA,那RTX 3080又是如何达到这种效果的呢?

其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元,这就使得每个SM的FP32运算单元数量提高了一倍。

我们在发布会中经常听到性能翻倍的说法,其实是因为本次NVIDIA Ampere的SM在Turing基础上增加了一倍的FP32运算单元,这就使得每个SM的FP32运算单元数量提高了一倍,同时吞吐量也就变为了一倍。

而通常我们计算显卡的CUDA数量,并不是把SM中的所有单元加起来计数,而是只统计FP32单元的数量,所以这样一来,SM中的【FP32 : INT32】 从 1:1 变为 2:1。

如RTX 3080的8704个CUDA,其实它只有4352个INT32单元,但由于内部的FP32数量翻了一倍,所以最终实现了8704这个惊人的数字。

而这样粗暴的提升CUDA数量对于游戏有帮助吗?

答案是有,不仅有提升还很大。其实通常在游戏中浮点运算相比整数计算要常用的多,图形、算法以及各种计算操作中着色器工作负载通常需要混合使用FP32算数指令,而FP32的加速也有助于光线追踪降噪着色器。

第二代RT Core

在此次的NVIDIA Ampere架构中,NVIDIA官方宣布为第二代RT Core,它和第一代有什么不同呢。

首先要知道RT Core的工作原理是,着色器发出光线追踪的请求,交给RT Core来处理,它将进行两种测试,分别为边界交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing)。

基于BVH算法来判断,如果是方形,那么就返回缩小范围继续测试,如果是三角形,则反馈结果进行渲染。

而光线追踪最耗时的正是求交计算,因此,要提升光线追踪性能,主要是对两种求交(BVH/三角形求交)进行加速。

在Turing的RT Core中,可以每个周期完成5次BVH遍历、4次BVH求交以及一次三角形求交,在第二代RT Core 里,NVIDIA增加了一个新的三角形位置插值模块以及一个的额外的三角形求交模块,这样做的目的是为了提升诸如运动模糊特效时候的光线追踪性能。

第二代RT Core可以让光线追踪与着色同时进行,进行的光线追踪越多,加速就越快,它将光线相交的处理性能提升了一倍,在渲染有动态模糊的影像时,按照NVIDIA自己的实测,比Turing快8倍。

第三代Tensor Core

除了光线追踪的强化,Ampere架构的Tensor Core也得到了极大地加强,在第三代Tensor Core中,NVIDIA引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。

首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高Tensor Core的性能。

所以最终的结果就是Tensor Core在处理稀疏网络的速率是Turing的两倍,算力高达238 Tensor TFLOPS,而Turing为89 Tensor TFLOPS。

RTX IO

与此次RTX 30系显卡一同发布的还有一项新技术——RTX IO。目前很多游戏动辄几十G甚至百G的安装空间,对于存储空间的负担暂且不提,但存放在硬盘中的数据,如果显卡想要读取到,需要先由CPU从硬盘中读取压缩过的数据,经过解压缩再发送到显存中。

虽然随着NVMe SSD的推出,读取速度相较机械硬盘能够快20倍,但受制于传统I/O限制,NVMe高达7GB/秒的高速读写对于CPU是极大的负担。

在这个过程中,会占用多个CPU核心,压力急剧增大,占用较多的内存,而此时其实GPU是处于闲置状态的。

RTX IO的作用就是越过CPU解压再传输数据这一步,直接从PCIE总线读取硬盘上经过压缩的数据,并且完成解压,降低CPU占用,变向提升了性能。

当然这项技术作为系统底层的运行方式改变,还需要借助微软发布的DirectStorage来实现,对于目前容量的游戏来说,RTX IO的改善效果有限,但假以时日等游戏容量上百G成为常态的时候,这项技术将会发挥巨大的功效。

最快的显存

在RTX 3080中,采用了GDDR6X显存,GDDR6X拥有320bit的位宽以及19Gbps的带宽速度,与采用GDDR6的Turing相比可提升40%的速度,在相同时间内GDDR6X可以比GDDR6传输多2倍的数据。

这对于需要大量数据负载的工作尤为重要,如光线追踪的游戏、AI学习和8K视频渲染。

同时搭配新增的HDMI2.1接口,可以支持单线8K的视频输出,而上一代HDMI2.0仅支持4K 98Hz的视频输出,如果想要连接8K电视,则需要更多的线缆支持。

相信了解RTX 30系显卡的性能后,会有玩家会问,RTX 20系显卡如此“短寿”算不算失败的一代,我认为不算。

Turing为我们开创了光线追踪和AI学习的新世界,奠定了GPU未来的发展方向,真正意义上实现从性能的堆砌到质的改变。

而Ampere则是站在巨人的肩膀,将上一代的路走的更宽更扎实。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4940

    浏览量

    102820
  • 显卡
    +关注

    关注

    16

    文章

    2424

    浏览量

    67470
  • 架构
    +关注

    关注

    1

    文章

    510

    浏览量

    25447
  • Ampere
    +关注

    关注

    1

    文章

    64

    浏览量

    4533
收藏 人收藏

    评论

    相关推荐

    相比上一代低功耗蓝牙芯片,CC2745P到底升级了什么?

    TI最近发布了新一代蓝牙芯片CC2745P,那么相对于上一代CC2642芯片,做了哪些升级,在实际应用中有哪些优势?。CC2745P/CC2642基本参数对比如下:型号CC2745PCC2642
    发表于 11-15 14:11

    capsense第四和第五在感应模式上的具体区别是什么?

    据我所知,第五capsense相比第四将电容(包括自电容+互电容技术)和电感触摸技术集成到了起,snr信噪比是上一代的十多倍,同时功
    发表于 05-23 06:24

    MediaTek与美团携手合作打造新一代餐饮系统硬件S4 Pro系列收银机

    MediaTek 与美团携手合作,打造新一代餐饮系统硬件 S4 Pro 系列收银机。该系列收银机采用 MediaTek 新一代高阶物联网芯片 Genio 510,对比上一代收银产品性能大幅提升
    的头像 发表于 05-17 10:09 467次阅读

    步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    带宽和1.8TB/s的NVLink带宽,使处理能力翻倍,大幅增加内存容量和带宽,为处理大规模人工智能模型和复杂计算提供必要资源。 针对大规模模型如GPT-MoE-1.8T,HGX B200的推理性能比上一代
    发表于 05-13 17:16

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 588次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于 GPU 上进行
    的头像 发表于 04-20 09:39 647次阅读

    NVIDIA发布两款新的专业显卡RTX A1000、RTX A400

    NVIDIA今天发布了两款新的专业显卡RTX A1000、RTX A400,从编号就能看出来定位入门级,而且架构并非最新的Ada Lovelace,还是上一代Ampere
    的头像 发表于 04-18 11:35 1988次阅读
    <b class='flag-5'>NVIDIA</b>发布两款新的专业显卡RTX A1000、RTX A400

    英伟达发布性能大幅提升的新款B200 AI GPU

    英伟达宣称,B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代,运算能力飞跃性提升,甚至能使大语言模型的训练速度翻番。
    的头像 发表于 03-20 09:37 743次阅读

    全面提升!英飞凌推出新一代碳化硅技术CoolSiC MOSFET G2

    电子发烧友网报道(文/梁浩斌)近日英飞凌推出了CoolSiC MOSFET G2技术,据官方介绍,这是新一代的沟槽栅SiC MOSFET技术,相比上一代产品也就是CoolSiC MOSFET G1有
    的头像 发表于 03-19 18:13 2886次阅读
    全面<b class='flag-5'>提升</b>!英飞凌推出新<b class='flag-5'>一代</b>碳化硅技术CoolSiC MOSFET G2

    NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 1255次阅读
    <b class='flag-5'>NVIDIA</b>将在今年第二季度发布Blackwell<b class='flag-5'>架构</b>的新<b class='flag-5'>一代</b>GPU加速器“B100”

    NVIDIA的Maxwell GPU架构功耗不可思议

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架构,它有着极高的能效,出场方式也非常特别。
    的头像 发表于 02-19 16:39 969次阅读
    <b class='flag-5'>NVIDIA</b>的Maxwell GPU<b class='flag-5'>架构</b>功耗不可思议

    英伟达Orin 的系统结构解析

    Orin SoC包含了高达170亿晶体管,几乎是Xavier SoC的两倍,搭载了12个ARM Hercules内核,并集成了NVIDIA一代Ampere架构的GPU,提供了惊人的2
    的头像 发表于 01-29 12:33 2375次阅读
    英伟达Orin 的系统结构<b class='flag-5'>解析</b>

    AI芯片生态:深度解析与未来展望

    相比上一代裁判Intel而言,实际上Intel设计的游戏规则是分配了很多蛋糕给行业内其他赛道的,而NVidia这种几乎吃独食的方式,也给它在各个领域树立了无数竞争对手。
    发表于 01-03 14:15 613次阅读

    TI 新一代明星CPU

    了全球。今天给大家分享的是TI新一代明星CPU——AM62x,它相比上一代AM335x在工艺、外设、性能等多方面都有很大提升。这里结合米尔电子的“MYC-YM62
    的头像 发表于 12-07 08:14 678次阅读
    TI 新<b class='flag-5'>一代</b>明星CPU

    龙芯3A6000性能实测:媲美10酷睿i3、同频超越14酷睿i5

    的实测成绩对比,上一代龙芯3A5000作为参照。 和3A5000相比 ,3A6000在SPEC CPU 2006测试中,多核定点提升103%,多核浮点提升83%。单核定点
    发表于 11-29 10:44