0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA RTX 30系列架构的详细讲解

电子设计 来源:电子设计 作者:电子设计 2020-12-24 15:15 次阅读

在当前的显卡市场上,占据80%的NVIDIA公司被玩家爱且恨着——他们带来了最近十多年来最好的显卡,同时也让高端游戏卡的价格高企,发烧显卡至少五位数起。

在RTX 30系列显卡发布之后,玩家的不满似乎释然了,相比当前的图灵显卡,安培架构的RTX 3090/3080/3070显卡一下子变得真香了,因为它们性能翻倍不说,国内价格反而下降了。

·GeForce RTX 3090:取代RTX Titan,相比于Titan RTX快了50%,性能是RTX 2080 Ti显卡的2倍,配备24GB GDDR6X显存,售价11999元,9月24日上市。

·GeForce RTX 3080:取代RTX 2080 Ti,相比于RTX 2080性能快2倍,搭配10GB GDDR6X显存,海外699美元没变,国内从上代6499降至5499元,9月17日上市。

·GeForce RTX 3070:价格不到RTX 2080 Ti的一半,但是平均性能更高,同时比RTX 2070快足足60%,配备8GB GDDR6显存,售价3899元,10月份上市。

RTX 30系列显卡售价及上市时间

RTX 30系列显卡性能变化

RTX 30系列显卡规格

从这个规格表中可以看出,与RTX 2080 Ti显卡相比,RTX 3090的标志性FP32性能从13.4T提升到了35.7T,翻倍还多,光追及AI加速提升也同样明显。

与图灵显卡相比,安培GPU的变化之大让人惊讶,在过去十多年的显卡升级换代中,性能翻倍的提升很少见到了,NVIDA是怎么做到的?

今天我们就来从详细解读一下安培GPU的架构,探究它到底带来了哪些技术升级以致于让NVIDIA创始人黄仁勋称之为有史以来性能提升最大的一次。

先从工艺说起:12nm干掉7nm之后 8nm如何再进一步

对于半导体芯片来说,很关键的一部分是制程工艺,先进的架构也要通过工艺来实现,这是影响芯片能效、性能甚至成本的一大因素。

对NVIDIA来说,他们的Volta伏特、Turing图灵两代架构都是台积电12nm FFN工艺了,这是台积电16nm工艺的改进版,如果再算上16nm的Pascal架构,实际上过去三代GPU都没有重大工艺上的升级了。

在Ampere安培架构上,NVIDIA终于升级工艺了,只不过这次有两个意外——首先没有选择台积电,其次没有上7nm,而是三星定制的8nm工艺,虽然跟7nm看起来只差了1nm,但实际上是两代工艺。

考虑到NVIDIA之前对工艺的表态,没用7nm工艺而是三星8nm工艺又在意料之中,最关键的问题在于NVIDIA能够做到多好。

三星的8nm工艺是基于10nm工艺改良的,至少有LPP和LPU两个版本,前者适合移动SoC,后者适合高性能芯片,NVIDIA的定制大概是基于后者。

与台积电的7nm工艺晶体管密度大约1亿/mm2相比,8nm工艺大概是6000万晶体管/mm2,但这是单一的SRAM芯片的对比,实际上GPU芯片比较复杂,差距会缩小很多。

根据是NVIDIA公布的信息,台积电7nm工艺制造的安培A100核心是540亿晶体管,核心面积826mm2,而三星8nm工艺制造的GA102核心是280亿晶体管,核心面积官方没公布,据悉是628mm2,也是大核心了。

这么算下来,7nm A100核心的晶体管密度6560万晶体管/mm2,而三星8nm的GA102核心也有4460万晶体管/mm2——差距仍在,但似乎可以接受了。

三星8nm工艺的晶圆代工价格还是秘密,但是不论技术还是商业策略上,三星都会比台积电便宜很多,预计代工价格能差30%或者更高,所以这也是RTX 30系列显卡能够不涨价甚至降价的关键。

那三星8nm工艺带来了多大的性能及能效提升呢?首先大家可以看到RTX 30系列显卡的频率提升了,从RTX 20系列的1.5GHz+提升到了1.7GHz+,升级工艺还是有性能提升的。

不过RTX 20系列的加速频率实际可以达到1.9GHz甚至接近2GHz,RTX 30系列预计也就这个水平。

但是能效还是有提升的,NVIDIA官方称在60fps性能下,图灵显卡的功耗大约有240W,安培显卡则是120W多点,算下来是1.9倍能效,提升了90%,同时温度还低了3度,噪音减少2分贝。

总的来说,在工艺这方面大家对安培GPU有惊喜有失望,失望的是没有上预期中的7nm工艺(不管台积电还是三星),工艺依然升级到了8nm。

但是NVIDIA工艺虽然并不算激进,但性能、能效进步还是挺大的,安培显卡各方面指标都是大幅胜过现在的图灵卡,而且价格做到了不升反降,这也是不追求激进工艺的好处,反正之前12nm都能赢,现在上8nm更加稳妥了。

安培GPU架构详解之:FP32单元翻倍 CUDA核心改了什么?

发布安培的时候,NVIDIA CEO黄仁勋表示这是GPU有史以来最大的性能飞跃,而2018年推出图灵GPU时,老黄也是类似的说词——GPU有史以来最大的变革,这两个评价其实也没错。

图灵GPU架构有很多第一次,首次支持RTX Core(光追加速单元),首次支持Tensor Core,同时还改进了CUDA内核,不过前两个是重点。

在安培GPU上,RT Core、Tensor Core当然继续加强,不过最主要的亮点是CUDA架构的改进,性能翻倍的根源就在这里,我们先来看看这方面的变化。

GA102核心架构示意图

GA102核心总计7组GPC单元,每组有12组SM单元,总计84组,RTX 30系列显卡视乎规格不同启用的SM单元总数不同,RTX 3090是82组,RTX 3080是68组,RTX 3070是46组。

在之前的GA100大核心中,每组SM是64个INT32单元、64个FP32单元及32个FP64单元组成的,但在GA102核心中,FP64单元大幅减少,增加了RT Core,Tensor Core也略微减少。

GA102核心的SM单元

按照之前图灵GPU的路线走,安培GPU的SM单元增加的并不多,但实际上FP32性能翻倍了还多,算上频率,RTX 3080的理论性能差不多是RTX 2080的三倍了,这是怎么做到的?

答案就是CUDA核心的FP32翻倍,但翻倍的方式有点特殊,每个SM单元中有4个分区,每个分区除了第三代Tensor Core核心之外,还有一组是16个FP32单元及16个FP32、16个IN32组成的单元,后者可以同时执行FP32或者INT32运算。

16个FP32单元每周期可执行16个FP32运算,混合的那个单元可以执行32个FP32或者16个FP32+16个INT32。

如此一来,每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算,或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。

只算FP32浮点的话,那么就是浮点翻倍了,因为图灵以及GA100都是每周期64个FP32浮点而已,现在可以做128个FP32运算了。

提升FP32性能不论对游戏还是运算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1带宽从116GB/s翻倍到219GB/s,共享内存的性能也从每周期64B翻倍到128B。

审核编辑:符乾江


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IC设计
    +关注

    关注

    38

    文章

    1296

    浏览量

    103945
  • NVIDIA
    +关注

    关注

    14

    文章

    4986

    浏览量

    103037
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4738

    浏览量

    128940
收藏 人收藏

    评论

    相关推荐

    NVIDIA RTX AI Toolkit拥抱LoRA技术

    RTX AI PC 和工作站上使用最新版 RTX AI Toolkit 微调 LLM,最高可将性能提升至原来的 6 倍。
    的头像 发表于 11-20 09:14 272次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> AI Toolkit拥抱LoRA技术

    AMD与NVIDIA GPU优缺点

    NVIDIARTX系列显卡以其强大的光线追踪和DLSS技术领先于市场。例如,NVIDIARTX 3080在4K分辨率下提供了卓越的游戏
    的头像 发表于 10-27 11:15 689次阅读

    NVIDIA RTX AI套件简化AI驱动的应用开发

    NVIDIA 于近日发布 NVIDIA RTX AI套件,这一工具和 SDK 集合能够帮助 Windows 应用开发者定制、优化和部署适用于 Windows 应用的 AI 模型。该套件免费提供,不要求使用者具备 AI 框架和开发
    的头像 发表于 09-06 14:45 447次阅读

    《黑神话:悟空》潮流来了!Nvidia GPU 合作伙伴推出八款全新 RTX 40 Super 显卡

    ABSTRACT摘要Nvidia合作伙伴推出了八款采用“黑神话:悟空”品牌的全新RTX40Super显卡。包括技嘉、MSI和Zotac在内的AIB正在庆祝这款受中国神话影响的动作角色扮演游戏的发布
    的头像 发表于 08-30 12:50 346次阅读
    《黑神话:悟空》潮流来了!<b class='flag-5'>Nvidia</b> GPU 合作伙伴推出八款全新 <b class='flag-5'>RTX</b> 40 Super 显卡

    新款Nvidia Titan GPU正在开发中?或将击败未发布的RTX 5090

    ABSTRACT摘要最近有消息透露,NVIDIA正在开发一款名为TITANAI的新显卡。该显卡基于即将推出的BlackwellGPU。在Nvidia选择不发布其RTX40系列
    的头像 发表于 07-26 08:26 496次阅读
    新款<b class='flag-5'>Nvidia</b> Titan GPU正在开发中?或将击败未发布的<b class='flag-5'>RTX</b> 5090

    Nvidia 再推出特供版显卡 GeForce RTX 5090D

    ABSTRACT摘要NVIDIA正在准备另一款“D”版本RTX5090D,这将成为国内市场的旗舰GeForceRTX50系列显卡。JAEALOT2024年7月4日NVIDIA正在准备另
    的头像 发表于 07-19 08:26 546次阅读
    <b class='flag-5'>Nvidia</b> 再推出特供版显卡 GeForce <b class='flag-5'>RTX</b> 5090D

    NVIDIA推出用于支持在全新GeForce RTX AI笔记本电脑上运行的AI助手及数字人

    NVIDIA 宣布推出全新 NVIDIA RTX 技术,用于支持在全新 GeForce RTX AI 笔记本电脑上运行的 AI 助手及数字人。  
    的头像 发表于 06-04 10:19 773次阅读

    RTX 5880 Ada Generation GPU与RTX™ A6000 GPU对比

    NVIDIA RTX™ 5880 Ada Generation GPU 是目前国内重量级 GPU,基于全新 NVIDIA Ada Lovelace 架构构建,采用 4nm 制成工艺,拥
    的头像 发表于 04-19 10:20 1818次阅读
    <b class='flag-5'>RTX</b> 5880 Ada Generation GPU与<b class='flag-5'>RTX</b>™ A6000 GPU对比

    NVIDIA发布两款新的专业显卡RTX A1000、RTX A400

    NVIDIA今天发布了两款新的专业显卡RTX A1000、RTX A400,从编号就能看出来定位入门级,而且架构并非最新的Ada Lovelace,还是上一代的Ampere。
    的头像 发表于 04-18 11:35 2239次阅读
    <b class='flag-5'>NVIDIA</b>发布两款新的专业显卡<b class='flag-5'>RTX</b> A1000、<b class='flag-5'>RTX</b> A400

    英伟达发布两款Ampere架构专业可视化GPU:RTX A400与RTX A10

    RTX A400和RTX A1000旨在替代2021年发布的T1000和T400,以及T600,成为英伟达最后三款未纳入NVIDIA RTX命名体系的专业可视化GPU产品。
    的头像 发表于 04-17 16:27 1069次阅读

    NVIDIA RTX 5090痛失512位显存!

    NVIDIA有望在今年底或明年初发布下一代RTX 50系列显卡,大概率首发配备新一代GDDR7显存,但是显存位宽和之前的说法不太一样。
    的头像 发表于 03-11 16:02 856次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>RTX</b> 5090痛失512位显存!

    英伟达RTX 50系列显卡将采用PCIe Gen 6 16-Pin供电技术

    据报道,在Moore‘s Law is Dead播客节目最新的一期中,主持人Tom透露了NVIDIA GeForce RTX 50系列显卡将会配置为原生PCIe Gen 6 16 Pin电源接口。
    的头像 发表于 02-19 14:16 1400次阅读

    RTX 4070 Ti SUPER详细评测

    2024年1月9日,NVIDIA发布了GeForce RTX 40 SUPER系列显卡,包括RTX 4070 SUPER、RTX 4070
    发表于 01-29 10:31 3892次阅读
    <b class='flag-5'>RTX</b> 4070 Ti SUPER<b class='flag-5'>详细</b>评测

    英伟达发布RTX 40 SUPER系列显卡

    在刚刚结束的CES 2024上,GPU巨头英伟达正式推出了全新的RTX 40 SUPER系列显卡,包括RTX 4080 SUPER、RTX 4070 Ti SUPER和
    的头像 发表于 01-22 16:09 911次阅读

    NVIDIA发布中国定制版RTX 4090D

    刚刚,NVIDIA官网发布了针对中国市场定制的RTX 4090D——D就是传说中的Dragon,对应即将到来的中国龙年。
    的头像 发表于 12-29 10:42 1084次阅读
    <b class='flag-5'>NVIDIA</b>发布中国定制版<b class='flag-5'>RTX</b> 4090D