英伟达「黄氏定律」让未来的AI算力每年能够提升一倍-电子发烧友网

今年的 GTC China 黄仁勋没有露面，但黄式定律无处不在。

从翻倍提高 TensorCore 计算效能的新技术，到下一代光通信技术，再到一行代码为所有模型提供 GPU 加速的软件工具，为了让未来的 AI 算力每年能够提升一倍，英伟达找到了不少新方向。

12 月 15 日上午，英伟达 GTC 大会中国站在线上举行，全球最负盛名的计算机科学家之一、NVIDIA 研究院负责人 Bill Dally 在活动中发表了主题演讲。

在科技领域里，很多人都知道摩尔定律：前英特尔 CEO 大卫·豪斯（David House）曾提出，人类制造出的芯片，每 18 个月计算效率就会提高一倍。这一「规律」在过去长达五十年间一直被实践验证，但在最近五六年中，由于晶体管尺寸越来越小，制程陷入瓶颈，摩尔定律逐渐失效。

而另一方面，人类对于计算机的算力需求是无限的，人工智能技术的发展更是加大了这种需求。近十年来，GPU正在让人工智能算法的性能每年都在成倍提升，英伟达的研究人员通过架构的提升，正在不断寻找进一步加快AI推理速度的芯片。

英伟达提出了以自己创始人黄仁勋名字命名的黄氏定律（Huang’s Law）对单芯片AI推理能力进行了预测，提出每 12 月其数字将翻一倍。

如果我们还需要在未来的一段时间里使用硅芯片，那么摩尔定律之后，我们还可以仰赖「黄氏定律」保持AI技术的发展速度。

在芯片本身无法快速提升的情况下，英伟达把目光转向了计算架构的很多其他方面，Bill Dally 认为「这些方向其中的任何一个如果有效，都可以在接下来几代的产品中帮助我们延续性能每年提升一倍的目标。」

首先是单卡计算效率。即使是英伟达目前的二代 Tensor Core，在进行推理时也无法把所有功耗用在数学运算上——效率被浪费在了数据传输上。英伟达设计了 MAGNet 系统，用于探索更为高效的芯片架构设计。

如果可以通过一个全局控制器，把数据从内存不同的部分移动到不同计算单元以执行计算，并针对神经网络计算的特性在数据流中加入一个存储层，便可以解除瓶颈，将大部分能量用于计算。在特定的单元上，英伟达尚未发布的硬件产品可以实现每瓦 100 Teraops 的推理能力，而在 2019 年达到的效率还只有 29 Teraops。

看来下一代的 Tensor Core 性能又要有巨大的提升了。

其次是多卡的数据传输，英伟达的 GPU 通过 NVlink 和 NVswitch 互相连接，然而基于电信号的方式目前已经接近极限了，人们预估，想要继续让 NVLink 中信号传输的带宽每代提升一倍，将变得极其困难。目前英伟达能够实现的数字是每线对 50Gb/s，可预见的未来大约可以实现到 100-200Gb/s。英伟达也在和英特尔等科技巨头一样思考如何尽快把基于光学的通信技术应用于实践。

作为一名研究者，Bill Dally 曾牵头研发英伟达对于光信号传输的愿景：光通信不仅可以大幅度提升带宽（从几百 Gb/s 到几 Tb/s），提升传输空间（从几十厘米到 20-100 米）并减少系统的复杂程度。

在英伟达的设计中，DGX 卡纵置排列，右侧为光源，可为光线提供多种不同波长的光线，光学引擎以极高的数据速率把光转换为信号。每根光纤都可以同时传输不同波长的光，而每种波长的光都可以用 25-50Gb/s 的速度传输信号。这样一来，总数据速率将为 400Gb/s，而每根光纤的传输速率「保守估计」就可以达到数个 Tb/s，而且能耗还要比电信号要小。英伟达的研究团队正在与哥伦比亚大学的研究人员密切合作，探讨如何利用电信供应商在其核心网络中所采用的技术，通过一条光纤来传输数十路信号——有了光通信，仅需一条 NVLink 就可以连接规模更大的系统。

英伟达还在尝试一种名为「密集波分复用」的技术, 有望在仅一毫米大小的芯片上实现 Tb/s 级数据的传输，是如今互连密度的十倍以上。

除了更大的吞吐量，光链路也有助于打造更为密集型的系统。Dally 举例展示了一个未来将搭载 160 多个 GPU 的 NVIDIA DGX 系统模型。

除了硬件方面的革新，还有软件。今天有很多应用都在被 GPU 加速，远超英伟达开发者们更新 CUDA 程序的速度，人们急需一种简化的编程方式。NVIDIA 的研究人员开发了全新编程系统原型 Legate。开发者借助 Legate，即可在任何规模的系统上，运行针对单一 GPU 编写的程序——甚至适用于诸如 Selene 等搭载数千个 GPU 的巨型超级计算机。

对于大多数人来说，使用 Legate 我们就可以无需更改代码即让 Python 程序无感运行在从 Jetson Nano 到 DGX SuperPOD 等所有包含英伟达 cuda 核心的设备上。开发者所做的是基于原始的 Python 代码，将原本的「import NumPy as NP」更改为「import legate.numpy as NP」就可以了。随后 Legate 库会开始运行，自动完成之后的操作。

它的运行速率有多快呢？从上表中可以看到，Legate 的处理速度不仅快于目前效率最高的库，同时在并行化时也能尽量保持住自己的优势。

英伟达也分享了目前国内合作伙伴使用新一代芯片的情况：阿里云、百度智能云、滴滴云、腾讯云的大型数据中心正在迁移至基于英伟达 Ampere 架构的平台。图像识别、语音识别，以及包括计算流体动力学、计算金融学、分子动力学在内的 GPU 加速高性能计算场景的快速增长，催生了更多对云实例的需求。

在硬件方面，新华三、浪潮、联想、宁畅等中国领先系统制造商也在将 A100 GPU 引入到自身产品中，并推出了多款针对不同应用场景的系列产品，为超大型数据中心提供基于 Ampere 架构的加速系统，进而为用户提供兼具超强性能与灵活性的 AI 计算平台。
编辑：hfy

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4832

浏览量
129794
计算机

计算机

+关注

关注
19

文章
7575

浏览量
89124
AI

AI

+关注

关注
87

文章
32487

浏览量
271693
英伟达

英伟达

+关注

关注
22

文章
3873

浏览量
92464

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

2024年3月19日，[英伟达]CEO[黄仁勋]在GTC大会上公布了新一代AI芯片架构BLACKWELL，并推出基于该架构的超级芯片GB20

发表于 05-13 17:16

【AD新闻】AI时代，一美元能够买到多强的算力？

当真正需要在嵌入式终端设备中使用AI技术时，客户的诉求更多的集中在功耗、响应时间、成本等方面，对性能的无尽追求反而不是重点，这和很多人之前的预想并不一致。花一美元或一瓦电能买到多强的

发表于 03-23 15:27

英伟达GPU惨遭专业矿机碾压，黄仁勋宣布砍掉加密货币业务！

加密货币专用产品上的预期营收降至1亿美元，实际营收只有1800万美元。预计未来这一业务对公司的贡献可以忽略不计。”英伟达CEO黄仁勋也做出类

发表于 08-24 10:11

英伟达DPU的过“芯”之处

，AI硬件正成为越来越多数据中心扩容建设的关键所在。当超强AI算力成为数据中心的刚需，英伟达GP

发表于 03-29 14:42

英伟达嵌入式电脑可为机器人设计引入AI算力

英伟达在硅谷召开了GTC 2019主题演讲，英伟达 CEO黄仁勋发表演讲，正式发布了机器人开发者工具箱Jetson Nano，可以为机器人设

发表于 08-12 17:09 •974次阅读

英伟达正式发布NVIDIA A100,拥有比原来强大20倍的AI算力

GPU，为此前在网上盛传的，被称为安培（Ampere）的产品。公司创始人兼 CEO 黄仁勋介绍称，其包含 540 亿晶体管，拥有比原来强大 20 倍的 AI 算

发表于 05-15 11:34 •6550次阅读

英伟达:GPU让AI的性能每年都成倍提升

英伟达首席科学家Bill Dally在一年一度的中国GPU技术大会召开前接受第一财经记者独家专访时表示，GPU让人工智能（

发表于 12-15 13:37 •2669次阅读

英伟达官方认可“黄氏定律”，摩尔定律会失效吗？

：摩尔定律失效后，该如何进一步提高处理器的能效？针对这个问题，一些公司已经找到了自己的答案，比如英伟达。过去几年来，

发表于 12-18 16:27 •3302次阅读

英伟达的算力霸主之路 “卷王”英伟达的真面目

了台积电4纳米制程工艺，集成1800亿个晶体管，浮点计算能力相比前一代A100快了三倍，被看作英伟达的新一代“核弹”。

发表于 04-05 14:11 •2794次阅读

角逐AI算力，比英伟达最多快10倍，光芯片能成为国产之光吗？

中信建投指出，近年来光计算在AI领域呈现高速的发展，具有广阔的应用前景。以Lightmatter和Lightelligence为代表的公司，推出了新型的硅光计算芯片，性能远超目前的AI算力

发表于 07-17 14:47 •1685次阅读

英伟达A100的算力是多少？

，但 A100 的算力是前者的 20 倍。 A100是英伟达推出的一款强大的数据中心GPU，采用

发表于 08-08 15:28 •3.9w次阅读

英伟达H200算力怎么样

英伟达H200的算力非常强大。作为新一代AI芯片，H200在性能上有了显著的

发表于 03-07 16:15 •2666次阅读

英伟达最新一代AI芯片Blackwell GPU，AI算力能力较上代提升30倍！

黄仁勋说："我们已经来到了一个临界点，因此需要一种新的计算方式来加速整个行业的发展效率。那么英伟达能够

发表于 03-19 13:39 •2195次阅读

英伟达宣布每年设计一代全新AI芯片，加快其他产品线更新速度

英伟达CEO黄仁勋宣布，公司将每年推出全新AI芯片，以满足市场需求。他表示，Blackwell后将有新款芯片问世，且

发表于 05-23 10:41 •890次阅读

英伟达Blackwell芯片已投产，预告未来AI芯片发展

英伟达创始人兼CEO黄仁勋近日宣布，公司旗下的Blackwell芯片已正式投入生产。这款芯片是英伟达在A

发表于 06-04 09:23 •2086次阅读

搜索历史

英伟达「黄氏定律」让未来的AI算力每年能够提升一倍

评论

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

【AD新闻】AI时代，一美元能够买到多强的算力？

英伟达GPU惨遭专业矿机碾压，黄仁勋宣布砍掉加密货币业务！

英伟达DPU的过“芯”之处

英伟达嵌入式电脑可为机器人设计引入AI算力

英伟达正式发布NVIDIA A100,拥有比原来强大20倍的AI算力

英伟达:GPU让AI的性能每年都成倍提升

英伟达官方认可“黄氏定律”，摩尔定律会失效吗？

英伟达的算力霸主之路 “卷王”英伟达的真面目

角逐AI算力，比英伟达最多快10倍，光芯片能成为国产之光吗？

英伟达A100的算力是多少？

英伟达H200算力怎么样

英伟达最新一代AI芯片Blackwell GPU，AI算力能力较上代提升30倍！

英伟达宣布每年设计一代全新AI芯片，加快其他产品线更新速度

英伟达Blackwell芯片已投产，预告未来AI芯片发展