NVIDIA RTX 30系列架构的详细讲解-电子发烧友网

在当前的显卡市场上，占据80％的NVIDIA公司被玩家爱且恨着——他们带来了最近十多年来最好的显卡，同时也让高端游戏卡的价格高企，发烧显卡至少五位数起。

在RTX 30系列显卡发布之后，玩家的不满似乎释然了，相比当前的图灵显卡，安培架构的RTX 3090／3080／3070显卡一下子变得真香了，因为它们性能翻倍不说，国内价格反而下降了。

·GeForce RTX 3090：取代RTX Titan，相比于Titan RTX快了50％，性能是RTX 2080 Ti显卡的2倍，配备24GB GDDR6X显存，售价11999元，9月24日上市。

·GeForce RTX 3080：取代RTX 2080 Ti，相比于RTX 2080性能快2倍，搭配10GB GDDR6X显存，海外699美元没变，国内从上代6499降至5499元，9月17日上市。

·GeForce RTX 3070：价格不到RTX 2080 Ti的一半，但是平均性能更高，同时比RTX 2070快足足60％，配备8GB GDDR6显存，售价3899元，10月份上市。

RTX 30系列显卡售价及上市时间

RTX 30系列显卡性能变化

RTX 30系列显卡规格

从这个规格表中可以看出，与RTX 2080 Ti显卡相比，RTX 3090的标志性FP32性能从13．4T提升到了35．7T，翻倍还多，光追及AI加速提升也同样明显。

与图灵显卡相比，安培GPU的变化之大让人惊讶，在过去十多年的显卡升级换代中，性能翻倍的提升很少见到了，NVIDA是怎么做到的？

今天我们就来从详细解读一下安培GPU的架构，探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。

先从工艺说起：12nm干掉7nm之后 8nm如何再进一步

对于半导体芯片来说，很关键的一部分是制程工艺，先进的架构也要通过工艺来实现，这是影响芯片能效、性能甚至成本的一大因素。

对NVIDIA来说，他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了，这是台积电16nm工艺的改进版，如果再算上16nm的Pascal架构，实际上过去三代GPU都没有重大工艺上的升级了。

在Ampere安培架构上，NVIDIA终于升级工艺了，只不过这次有两个意外——首先没有选择台积电，其次没有上7nm，而是三星定制的8nm工艺，虽然跟7nm看起来只差了1nm，但实际上是两代工艺。

考虑到NVIDIA之前对工艺的表态，没用7nm工艺而是三星8nm工艺又在意料之中，最关键的问题在于NVIDIA能够做到多好。

三星的8nm工艺是基于10nm工艺改良的，至少有LPP和LPU两个版本，前者适合移动SoC，后者适合高性能芯片，NVIDIA的定制大概是基于后者。

与台积电的7nm工艺晶体管密度大约1亿／mm2相比，8nm工艺大概是6000万晶体管／mm2，但这是单一的SRAM芯片的对比，实际上GPU芯片比较复杂，差距会缩小很多。

根据是NVIDIA公布的信息，台积电7nm工艺制造的安培A100核心是540亿晶体管，核心面积826mm2，而三星8nm工艺制造的GA102核心是280亿晶体管，核心面积官方没公布，据悉是628mm2，也是大核心了。

这么算下来，7nm A100核心的晶体管密度6560万晶体管／mm2，而三星8nm的GA102核心也有4460万晶体管／mm2——差距仍在，但似乎可以接受了。

三星8nm工艺的晶圆代工价格还是秘密，但是不论技术还是商业策略上，三星都会比台积电便宜很多，预计代工价格能差30％或者更高，所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。

那三星8nm工艺带来了多大的性能及能效提升呢？首先大家可以看到RTX 30系列显卡的频率提升了，从RTX 20系列的1．5GHz＋提升到了1．7GHz＋，升级工艺还是有性能提升的。

不过RTX 20系列的加速频率实际可以达到1．9GHz甚至接近2GHz，RTX 30系列预计也就这个水平。

但是能效还是有提升的，NVIDIA官方称在60fps性能下，图灵显卡的功耗大约有240W，安培显卡则是120W多点，算下来是1．9倍能效，提升了90％，同时温度还低了3度，噪音减少2分贝。

总的来说，在工艺这方面大家对安培GPU有惊喜有失望，失望的是没有上预期中的7nm工艺（不管台积电还是三星），工艺依然升级到了8nm。

但是NVIDIA工艺虽然并不算激进，但性能、能效进步还是挺大的，安培显卡各方面指标都是大幅胜过现在的图灵卡，而且价格做到了不升反降，这也是不追求激进工艺的好处，反正之前12nm都能赢，现在上8nm更加稳妥了。

安培GPU架构详解之：FP32单元翻倍 CUDA核心改了什么？

发布安培的时候，NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃，而2018年推出图灵GPU时，老黄也是类似的说词——GPU有史以来最大的变革，这两个评价其实也没错。

图灵GPU架构有很多第一次，首次支持RTX Core（光追加速单元），首次支持Tensor Core，同时还改进了CUDA内核，不过前两个是重点。

在安培GPU上，RT Core、Tensor Core当然继续加强，不过最主要的亮点是CUDA架构的改进，性能翻倍的根源就在这里，我们先来看看这方面的变化。

GA102核心架构示意图

GA102核心总计7组GPC单元，每组有12组SM单元，总计84组，RTX 30系列显卡视乎规格不同启用的SM单元总数不同，RTX 3090是82组，RTX 3080是68组，RTX 3070是46组。

在之前的GA100大核心中，每组SM是64个INT32单元、64个FP32单元及32个FP64单元组成的，但在GA102核心中，FP64单元大幅减少，增加了RT Core，Tensor Core也略微减少。

GA102核心的SM单元

按照之前图灵GPU的路线走，安培GPU的SM单元增加的并不多，但实际上FP32性能翻倍了还多，算上频率，RTX 3080的理论性能差不多是RTX 2080的三倍了，这是怎么做到的？

答案就是CUDA核心的FP32翻倍，但翻倍的方式有点特殊，每个SM单元中有4个分区，每个分区除了第三代Tensor Core核心之外，还有一组是16个FP32单元及16个FP32、16个IN32组成的单元，后者可以同时执行FP32或者INT32运算。

16个FP32单元每周期可执行16个FP32运算，混合的那个单元可以执行32个FP32或者16个FP32＋16个INT32。

如此一来，每个SM单元可以同时执行4x（16FP32＋16FP32）＝128个FP32运算，或者4x（16FP32＋16INT32）＝64个FP32＋64个INT32运算。

只算FP32浮点的话，那么就是浮点翻倍了，因为图灵以及GA100都是每周期64个FP32浮点而已，现在可以做128个FP32运算了。

提升FP32性能不论对游戏还是运算都大有裨益，但也需要配套的提升，GA102的L1容量提升了33％，L1带宽从116GB／s翻倍到219GB／s，共享内存的性能也从每周期64B翻倍到128B。

审核编辑：符乾江

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

IC设计

IC设计

+关注

关注
38

文章
1296

浏览量
103945
NVIDIA

NVIDIA

+关注

关注
14

文章
4986

浏览量
103037
gpu

gpu

+关注

关注
28

文章
4738

浏览量
128940

NVIDIA RTX AI Toolkit拥抱LoRA技术

在 RTX AI PC 和工作站上使用最新版 RTX AI Toolkit 微调 LLM，最高可将性能提升至原来的 6 倍。

发表于 11-20 09:14 •272次阅读

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> AI Toolkit拥抱LoRA技术

AMD与NVIDIA GPU优缺点

，NVIDIA的RTX系列显卡以其强大的光线追踪和DLSS技术领先于市场。例如，NVIDIA的RTX 3080在4K分辨率下提供了卓越的游戏

发表于 10-27 11:15 •689次阅读

NVIDIA RTX AI套件简化AI驱动的应用开发

NVIDIA 于近日发布 NVIDIA RTX AI套件，这一工具和 SDK 集合能够帮助 Windows 应用开发者定制、优化和部署适用于 Windows 应用的 AI 模型。该套件免费提供，不要求使用者具备 AI 框架和开发

发表于 09-06 14:45 •447次阅读

《黑神话：悟空》潮流来了！Nvidia GPU 合作伙伴推出八款全新 RTX 40 Super 显卡

ABSTRACT摘要Nvidia合作伙伴推出了八款采用“黑神话：悟空”品牌的全新RTX40Super显卡。包括技嘉、MSI和Zotac在内的AIB正在庆祝这款受中国神话影响的动作角色扮演游戏的发布

发表于 08-30 12:50 •346次阅读

《黑神话：悟空》潮流来了！<b class='flag-5'>Nvidia</b> GPU 合作伙伴推出八款全新 <b class='flag-5'>RTX</b> 40 Super 显卡

新款Nvidia Titan GPU正在开发中？或将击败未发布的RTX 5090

ABSTRACT摘要最近有消息透露，NVIDIA正在开发一款名为TITANAI的新显卡。该显卡基于即将推出的BlackwellGPU。在Nvidia选择不发布其RTX40系列

发表于 07-26 08:26 •496次阅读

新款<b class='flag-5'>Nvidia</b> Titan GPU正在开发中？或将击败未发布的<b class='flag-5'>RTX</b> 5090

Nvidia 再推出特供版显卡 GeForce RTX 5090D

ABSTRACT摘要NVIDIA正在准备另一款“D”版本RTX5090D，这将成为国内市场的旗舰GeForceRTX50系列显卡。JAEALOT2024年7月4日NVIDIA正在准备另

发表于 07-19 08:26 •546次阅读

<b class='flag-5'>Nvidia</b> 再推出特供版显卡 GeForce <b class='flag-5'>RTX</b> 5090D

NVIDIA推出用于支持在全新GeForce RTX AI笔记本电脑上运行的AI助手及数字人

NVIDIA 宣布推出全新 NVIDIA RTX 技术，用于支持在全新 GeForce RTX AI 笔记本电脑上运行的 AI 助手及数字人。

发表于 06-04 10:19 •773次阅读

RTX 5880 Ada Generation GPU与RTX™ A6000 GPU对比

NVIDIA RTX™ 5880 Ada Generation GPU 是目前国内重量级 GPU，基于全新 NVIDIA Ada Lovelace 架构构建，采用 4nm 制成工艺，拥

发表于 04-19 10:20 •1818次阅读

NVIDIA发布两款新的专业显卡RTX A1000、RTX A400

NVIDIA今天发布了两款新的专业显卡RTX A1000、RTX A400，从编号就能看出来定位入门级，而且架构并非最新的Ada Lovelace，还是上一代的Ampere。

发表于 04-18 11:35 •2239次阅读

英伟达发布两款Ampere架构专业可视化GPU：RTX A400与RTX A10

RTX A400和RTX A1000旨在替代2021年发布的T1000和T400，以及T600，成为英伟达最后三款未纳入NVIDIA RTX命名体系的专业可视化GPU产品。

发表于 04-17 16:27 •1069次阅读

NVIDIA RTX 5090痛失512位显存！

NVIDIA有望在今年底或明年初发布下一代RTX 50系列显卡，大概率首发配备新一代GDDR7显存，但是显存位宽和之前的说法不太一样。

发表于 03-11 16:02 •856次阅读

英伟达RTX 50系列显卡将采用PCIe Gen 6 16-Pin供电技术

据报道，在Moore‘s Law is Dead播客节目最新的一期中，主持人Tom透露了NVIDIA GeForce RTX 50系列显卡将会配置为原生PCIe Gen 6 16 Pin电源接口。

发表于 02-19 14:16 •1400次阅读

RTX 4070 Ti SUPER详细评测

2024年1月9日，NVIDIA发布了GeForce RTX 40 SUPER系列显卡，包括RTX 4070 SUPER、RTX 4070

发表于 01-29 10:31 •3892次阅读

英伟达发布RTX 40 SUPER系列显卡

在刚刚结束的CES 2024上，GPU巨头英伟达正式推出了全新的RTX 40 SUPER系列显卡，包括RTX 4080 SUPER、RTX 4070 Ti SUPER和

发表于 01-22 16:09 •911次阅读

NVIDIA发布中国定制版RTX 4090D

刚刚，NVIDIA官网发布了针对中国市场定制的RTX 4090D——D就是传说中的Dragon，对应即将到来的中国龙年。

发表于 12-29 10:42 •1084次阅读