黄教主“真身”引爆黑科技，超强GPU、DPU、最快网卡芯片，打造未来“虚拟世界”-电子发烧友网

电子发烧友网报道（文/李弯弯）11月9日，黄仁勋在NVIDIA GTC上发表主题演讲，发布了一系列新品，包括ReOpt、cuQuantum、cuNumeric，以及Quantum-2平台、Modulus、Omniverse、Maxine、Clara Holoscan等等。

ReOpt

ReOpt，一款针对运筹优化问题（比如车辆路线安排和仓库拣选与包装）的加速求解器，配送14个披萨的路径有870亿种，因此对于达美乐来说，要在30分钟内将披萨送达并非易事，运筹优化对于最后一公里配送来说是必需的，对于仓储及制造物流而言也是如此。

路线规划是一个极其棘手的物流问题，应用到行业里，即使是小规模的路线优化也能节省数十亿美元，示例，使用NVIDIA Omniverse中的虚拟仓库，来展示优化路线在自动订单拣选场景中带来的影响，优化后的规划能够使订单拣选节省一半的时间和路程，当前路线优化求解器在收到新的订单后，需要数小时来重新运行和响应，NVIDIA ReOpt能够持续运行并实时动态地进行重新优化。

cuQuantum

量子计算依靠的是，叠加和纠缠的自然量子物理现象，因此有潜力解决伴随组合复杂性增加而出现的问题，在世界各地的大学、科学实验室、企业和初创公司中，有近100个团队正在致力于量子处理器、系统、模拟器和算法的研究，但预计还需要十到二十年才能制造出一台实用的量子计算机。同时，该行业还需要一个超高速的量子模拟器来验证其研究。

NVIDIA创建了cuQuantum DGX设备，该设备配备有针对量子计算工作流的加速库，可以使用态矢量和张量网络的方法，来加速量子电路模拟。曾经需要耗费几个月时间的模拟现在只需要几天就可以完成，，NVIDIA将在第1季度推出cuQuantum DGX设备。

通过DGX上的cuQuantum，量子计算机和算法研究人员可以使用当今速度最快的计算机来发明未来的计算机，NVIDIA将在第1季度推出cuQuantum DGX设备。

cuNumeric

Python是科学家、机器学习与AI研究人员使用的编程语言，Python拥有丰富的库生态系统，包括用于DataFrame进行数据分析的Pandas，用于n维数组与矩阵运算的NumPy，用于机器学习的Scikit-Learn，用于科学计算的SciPy，用于深度学习的PyTorch。Python拥有近2000万名用户。

在会上还宣布推出NumPy的插入式加速库cuNumeric，cuNumeric加速了NumPy从单一GPU扩展到多GPU，扩展到多节点集群，进而扩展到世界上最大的超级计算机，其并行性以隐含的方式自动完成。

cuNumeric具有很好的可扩展性，在著名的CFD Python教学代码中，cuNumeric能够扩展至1000个GPU，而扩展效率仅比线性扩展效率损失了20%。

黄仁勋表示，ReOpt、cuQuantum、cuNumeric，三个极佳的新库。

Quantum-2平台

在分布式计算中，网络是计算机的重要中枢神经系统，网络将数以千计的GPU连接成一个巨型的超级计算机，是其扩展能力和最终性能的决定因素。

Quantum-2是一个400Gbps的InfiniBand平台，由Quantum-2交换机，ConnectX-7网卡、BlueField-3 DPU以及一整套面向这种新架构的软件组成，Quantum-2是首个集超级计算机的性能和云计算的多租户共享能力于一身的网络平台。

黄仁勋表示，在Quantum-2之前，我们只能在裸机的高性能或安全的多租户之间选其一，无法两者兼得，Quantum-2平台的出现，使超级计算机拥有了原生云的能力，并得到更好的优化。如果NVIDIA 的Selene DGX超级计算机，如今也配备Quantum-2，则总带宽将达到每秒224000GB/s，大约是互联网总流量的1.5倍。

Quantum-2平台的InfiniBand交换机芯片，共计570亿个晶体管，采用台积电7nm制程，和NVIDIA的A100 GPU相近，支持64个400Gbps端口或128个200Gbps端口，一个基于Quantum-2的系统可连接多达2048个端口，相较于800个端口的Quantum-1的交换容量多了5倍。

采用Dragonfly拓扑，基于Quantum-2的网络可以仅用3个hop就扩展到100万个节点，这比当前一代增加了6.5倍，这种网络速度、交换容量和可扩展性对于需要构建的巨型HPC系统来说来得正是时候，目前Quantum-2交换机正处于样机阶段。

Quantum-2平台在主机端提供两个选项：ConnectX-7和BlueFied-3。黄仁勋称，ConnectX-7将是速度最快的网卡，包含80亿个晶体管，采用台积电7nm制程，是目前世界上速度最快的网络芯片，比上一代ConnectX-6快两倍。ConnectX-7样品将于明年1月问世。

Quantum-2平台还提供BlueFied-3 InfiniBand系列方案，通过16个64位Arm CPU来卸载和隔离数据中心基础设施栈操作，BlueFied-3采用台积电7nm制程，包含220亿个晶体管，BlueFied-3样品将于明年5月问世。

黄仁勋说：“Quantum-2是迄今为止构建的非常先进的网络平台，将由顶级计算机制造商提供，这将大大推动高性能计算。”

Modulus

NVIDIA Modulus是一种开发Physics-ML模型的框架，它使用物理原理以及源自原理型模型和观测结构的数据训练Physics-ML模型，Modulus已经过优化，可以在多个GPU和多个节点上进行训练，由此生成的模型，其物理仿真的速度比模拟快1000到10万倍。

借助Modulus，科学家能够创建数字孪生模型，以前所未有的方式更好地理解大型系统，Modulus可以用来解决的一个重要问题，即是气候科学。黄仁勋介绍：“我们可以创造地球的数字孪生模型，它可以持续运行以预测未来，用观测到的数据进行校准并改进预测，然后再预测。”

研究人员利用欧洲中期天气预报中心的ERA5大气数据训练Physics-ML模型，该模型在128个A100 GPU上训练需要4个小时，训练后的模型能以30公里的空间分辨率，预测飓风的严重程度和路径，原本需要7天才能完成的预测，如今在一个GPU上只需四分之一秒。

虚拟世界模拟引擎Omniverse

Omniverse面向数据中心规模设计，Omniverse的门户是USD（通用场景描述），本质上是一个数字虫洞，将人和计算机链接到Omniverse，并将一个Omniverse世界链接到另一个世界，公司可以在Omniverse中建立虚拟工厂，并使用虚拟机器人进行运营。虚拟工厂和机器人是其物理复制品的数字孪生。

自去年年底推出以来，Omniverse已被500家公司的设计师下载了70000次，社区、公司和工具供应商与NVIDIA一起构建Omniverse连接器，14个已经投入运行，还有15个即将推出，Bentley宣布带有Omniverse的iTwin现在正处于抢先体验阶段，另外还有宝马和爱立信。

Clara Holoscan

NVIDIA Clara Holoscan，一款软件定义的可编程影响平台，以及全新的高速传感器处理机器人芯片Orin。

基础Holoscan平台由Orin和ConnectX-7组成，Orin可以在单个芯片中处理整个机器人流水线，即传感器、物理、AI、成像和图形，12个Arm CPU，5.2TFLOPS（FP32），用于AI的250TOPS，740Gbps高速IO用于连接传感器，使用者可以选择添加A6000 Ampere GPU获得另外39TFLOPS（FP32）和超过500TOPS的AI推理性能。

Holoscan平台是开放的，第三方可以在Holoscan的界面和API的基础上进行构建，研究人员可以从事重要的新科学研究、仪器制造商可以将Holoscan集成到他们的解决方案中，Holoscan应用程序可以完整部署在设备内、医院的数据中心或者两者结合，这使得公司可以开放比设备本身需要更多算力的应用程序，或者升级部署多年的已安装基础设备。

黄仁勋在演讲的最后表示还有一项公告要发布，“我们将构建一个数字孪生模型来模拟和预测气候变化，上一台超级计算机名为Cambridge 1，即C-1，这台新的超级计算机将名为E-2。Earth Two ，地球的数字孪生，能够在Omniverse中以Million-X百万倍的速度运行，目前发明的所有技术，均是实现Earth Two必不可少的，我想象不出笔者更宏伟、更重要的用途。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4985

浏览量
103034
gpu

gpu

+关注

关注
28

文章
4736

浏览量
128932
AI

AI

+关注

关注
87

文章
30851

浏览量
269019

AI智能网卡在AI网络中的作用

写在开头，本文主要介绍智能网卡在AI网络的作用并在一定场景下说明DPU和智能网卡在功能上的一些区别以理解两者的相似点和不同点。

发表于 12-18 16:17 •306次阅读

全球首颗！中国移动联合产业伙伴发布全调度以太网（GSE）DPU芯片

11月19日至22日，2024世界互联网大会“互联网之光”博览会在浙江乌镇举行，中国移动携手产业合作伙伴共同发布全球首颗全调度以太网（GSE）DPU芯片——“智算琢光”。大模型时代，大规模GP

发表于 11-22 01:09 •204次阅读

GPU在虚拟现实中的表现低功耗GPU的优缺点

GPU在虚拟现实中的表现虚拟现实（VR）技术的发展离不开高性能的图形处理单元（GPU）。GPU在VR中扮演着至关重要的角色，它负责渲染复杂

发表于 11-19 10:58 •325次阅读

GPU与VR技术结合应用

同时处理大量数据，从而实现高速的图形渲染。 VR技术的基本概念虚拟现实（VR）技术是一种通过计算机生成的三维环境，让用户能够沉浸在虚拟世界中的技术。VR技术通过头戴式显示器、手柄等设备，实现用户与

发表于 10-27 11:23 •351次阅读

网卡的演进和应用

随着云计算和虚拟化技术的发展，网卡在功能和硬件结构方面也经历了四个阶段，即网卡、智能网卡、基于FPGA的DPU和

发表于 10-24 16:45 •330次阅读

IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书

DPU 是当下算力基础设施的核心创新之一。如果把 CPU 比做大脑，那么 GPU 就好比是肌肉，而 DPU 就是神经中枢。CPU 承载了应用生态，提供了通用型算力；GPU 提供了高密

发表于 07-24 15:32

rt-thread如何解决添加虚拟网卡？

rt-thread在初始化一个（物理网卡只有一个）网卡之后，还想要再次添加一张虚拟网卡，调用netif_add没有效果，应该如何解决添加虚拟

发表于 07-10 08:18

中科驭数发布高性能DPU芯片K2-Pro

在信息技术领域，每一次芯片技术的突破都代表着行业的一次飞跃。近日，DPU领域的领军企业中科驭数宣布，成功研发并发布了其第三代DPU芯片——“K2-Pro”。这款

发表于 06-21 11:41 •776次阅读

基于芯启源NFP3800DPU芯片的深信服安全加速卡XSX40FNN网卡

近日，国内DPU领域的领军企业芯启源宣布，基于芯启源NFP3800DPU芯片定制的深信服安全加速卡XSX40FNN网卡已成功应用于其防火墙产品，并已批量推向市场。

发表于 05-29 14:06 •951次阅读

一文看懂DPU与CPU、GPU的关系

独立供电的智能网卡，需要考虑网卡状态与计算服务之间低层信号识别，在计算系统启动的过程中或者启动之后，智能网卡是否已经是进入服务状态，这些都需要探索和解决。

发表于 04-26 10:35 •1.5w次阅读

AI芯片未来会控制这个世界吗？

AI芯片行业资讯

芯广场
发布于 :2024年03月27日 18:21:28

交换芯片和网卡的区别在哪

交换芯片和网卡在计算机网络中各自扮演着重要的角色，它们的功能、结构以及应用场景有着显著的差异。

发表于 03-22 16:57 •1217次阅读

交换芯片和网卡的区别是什么

交换芯片和网卡是两种不同的网络硬件组件，它们在网络系统中承担着不同的角色和功能。

发表于 03-22 16:42 •1684次阅读

FPGA-Based DPU网卡的发展和应用

采用单芯片的SoC形态，兼顾性能和功耗。FPGA-Based DPU在硬件设计上的挑战主要来自芯片面积和功耗。

发表于 02-23 14:40 •2072次阅读

星云智联为金山云打造裸金属服务器DPU解决方案，助力高端用户实现更强大更高效的上云体验

国内领先的DPU和智能网卡芯片与解决方案提供商星云智联近日宣布，与中国知名云服务商金山云共同开发了基于星云智联NebulaMatrix DPU解决方案的金山云裸金属产品，满足用户对高性

发表于 02-20 09:06 •625次阅读