NVIDIA GPU加速计算之路-电子发烧友网

NVIDIA从提出GPU以及CUDA核心开始，NVIDIA便开始逐步迈出游戏圈，不断向全新的计算领域发起攻势。时至今日，NVIDIA GPU计算从机器人、自动驾驶，一路扩展到云计算、医疗甚至是NASA火星登录计划。

是的，正如GTC CHINA 2019上，NVIDIA创始人兼CEO黄仁勋所言，就算摩尔定律走向终结，GPU加速计算将有机会成为未来的发展方向，GPU正在变得无所不能，也将无处不在。

云游戏与光线追踪全面开花以游戏发家的NVIDIA开场少不了游戏的戏份。开场黄仁勋便展示了《我的世界》RTX版本，这也是GTC主题演讲上首次展示《我的世界》RTX视频。

通过对光影的添加，这款沙盘化的游戏有了全新的演绎，不仅水面变得更为真实，随着视角、天气、时间变化，光影也呈现出不同的效果。

这套实时光纤追踪技术可以让开发者在添加光源之后，依靠GeForce RTX显卡中的RT Core演算出光线路径，从而获得自然的光线效果，同时也减轻了游戏开发者手动考虑光影贴图的繁琐工作。

除了《我的世界》增加的光线追踪特效，GTC上黄仁勋还宣布了六款游戏正引入光线追踪，包括《边境》（Boundary）、《铃兰计划》（Convallaria）、《暗影火炬》（F.I.S.T.）、Project X（项目代号）、《无限法则》（Ring of Elysium）以及《轩辕剑柒》（Xuan-Yuan Sword VII）。

同时老黄还特意在台上演示了《光明记忆：无限》的光线追踪DEMO。重点在于负责《光明记忆》的飞燕群岛个人工作室主力仅有一人，通过一人之力完成美术、程序以及最新的光线追踪技术功能，也足以见得虚幻引擎对光线追踪已经提供了相当优秀的支持，可以更为轻松调用GeForce RTX的光线追踪功能。

此外，目前宣布支持光线追踪游戏阵营包括：《光明记忆：无限》（Bright Memory： Infinite）、《赛博朋克2077》（Cyberpunk 2077）、《消逝的光芒2》（Dying Light 2）、《我的世界》（Minecraft）、《逆水寒》（Justice）、《剑侠情缘叁网络版》（JX3 Online）、《重生边缘》（SYNCED： Off-Planet）、《仙剑奇侠传七》（Sword And Fairy 7）、《看门狗：军团》《Watch Dogs： Legion》以及《吸血鬼：避世血族2》（Vampire： The Masquerade – Bloodlines 2）。

在推进光线追踪技术进驻预习的同时，NVIDIA与腾讯游戏合作的START云游戏服务也进入了测试阶段。

类似NVIDIA在北美和欧洲推出的GeForce NOW云游戏服务，腾讯START可以让玩家在在配置不足的设备上也能玩AAA游戏。腾讯游戏计划将扩展其云游戏产品。

NVIDIA与腾讯还将成立一个一个游戏联合创新实验室。双方将共同探索AI在游戏、游戏引擎优化和新光照技术（包括光线追踪和光线烘焙）中的新应用。借着START服务东风，英伟达的云游戏技术也终于可以在国内付诸实践。

RTX Studio加速内容创作显卡性能也早已不局限在游戏中，英伟达针对RTX Studio的产品线覆盖也已经从GeForce RTX 2060笔记本覆盖到8路Quadro RTX 8000工作站。在加上NVIDIA OMNIVERSE所提供的3D制作流程的协作平台，创作者可以通过不同的分工协同工作。

现在NVIDIA OMNIVERSE也已经正式进驻建筑行业AEC，可以做到无论本地还是云端，主流应用都能依靠NVIDIA RTX展开建模、着色、动画、视觉效果等等。在演讲台上，老黄也豪气的演示如何利用8 路 RTX 8000 的 RTX 服务器对深圳华润大厦实时渲染。

在电影、视觉特效领域，瑞云云端渲染平台也宣布配备NVIDIA RTX GPU。瑞云目前是全亚洲最大的云渲染平台，2019年火爆的《战狼2》、《哪吒》、《流浪地球》渲染均来自瑞云，超过85%的中国电影工作室都是瑞云的客户。很快，首批5000片RTX GPU也将会在2020年上线。

在现场，黄仁勋也不忘搬出那句经典台词：“买的越多，省得越多。”针对渲染工作，RTX GPU能够做到速度比CPU快12倍，价格低7倍。原本CPU上需要花费485个小时的渲染场景，交给RTX GPU现在可能只需要40个小时就能完成。

让未来所见所得跳出大家耳熟能详的游戏、渲染领域，NVIDIA也已经将视野放向了外太空。NASA计划在2030年将6位宇航员送向火星，着陆器将以12000千米/小时的速度进入火星大气层，而且必须精确点火减速并在6分钟内降落在火星表面。

为此NASA借助NVIDIA GPU通过FUN3D流体李璇软件进行了数十万次火星着陆场景模拟，将产生的150TB数据变成了可视化，现在，NVIDIA DGX-2上已经可以借助Magnum IO GPU Direct Storage技术，对数据进行可视化处理，这在以前是不敢想象的。

如果登陆火星还不够，科研人员也正在借助GPU内的CUDA核心对全基因组进行测序。通过全基因组测序分析整个基因序列，可以检测由遗传性疾病引起的DNA变异。为此，NVIDIA推出了一套Parabricks 基因组分析工具包，借助CUDA基因测序可以加速到30-50倍完成。

而即将到来的5G与NVIDIA也同样有关系。目前NVIDIA已经与爱立信展开合作，通过CUDA核心，能够提升5G vRAN性能，特别是在复杂的空间内，CUDA能够加速解决物理空间内的信号优化的问题。

针对世界上最普及的ARM，NVIDIA也给出了一套能够与ARM配套的解决方案。得益于PCIe标准，GPU也可以轻松与ARM完成连接。基于ARM，NVIDIA推出了NVIDIA HPC for ARM首个参考架构，可以使用Marvell、Ampere、富士通亦或者其他ARM的HPC处理器与Volta GPU连接。更厉害的是，每个ARM CPU最多可以连接4块Volta GPU，扩展性能极其恐怖。

在现场，黄仁勋也毫不吝啬的通过VMD ON ARM通过CUDA演示NAMD分子动力学模型的结果可视化处理，借助Marvell ThunderX2以及NVIDIA V100，并通过NVIDIA Optix光线追踪器，并实现远程流式传输。

与此同时，TensorFlow作为当今最重要的可言、云计算、工业、上也领域的HPC应用，也同样被NVIDIA CUDA on ARM所支持。

而随着深度学习不断挖掘，NVIDIA在5年左右的时间内将训练性能提高了300倍以上，借助Volta、Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink、DGX系统，AI加速变得更快。

事实上NVIDIA AI已经影响到了各行各业，它出现在运输、医疗、金融、零售中，NVIDIA也不断为每种场景打造不同的平台，例如用于深度学习训练的DGX，用于超大规模云的HGX，用于边缘计算的EGX，用于自治系统的AGX。

现在，NVIDIA AI也已经被运用到百度推荐系统中，100多个推荐模型在百度中付诸实践，这些模型每周都会进行更新，自动学习用户潜在兴趣，新条目和特征被持续更新。目前百度庞大的用户潜在兴趣数据包含了千亿维稀疏离散特征和10TB embedding词表，只有通过GPU加速训练，才能在如此大规模的训练中加速且节省成本。

同样，阿里巴巴也接祖了NVIDIA加速计算平台大规模部署先进的AI技术，包括T4 GPU、cuBLAS、自定义混合精度和推理加速软件等。确保双十一期间2684亿人民币，每秒几十亿次推荐请求，确保全天销售额顺利推进，所以一切也都借助了NVIDIA AI的运算支持。在NVIDA AI加持下，阿里巴巴已经嫩巩固支持比过去复杂6倍的模型，从而使点击率提高10％。相比于CPU，T4将我们最大模型的吞吐量提高了100倍。

TensorRT 7的性能攀升在帮助各大厂商推进AI的同时，NVIDIA也发布了全新的NVIDIA TensorRT 7推理软件，内置新型深度学习编译器。

该编译器能够自动优化和加速递归神经网络与基于转换器的神经网络。这些日益复杂的神经网络是AI语音应用所必需的。与在CPU上运行时相比，会话式AI组件速度提高了10倍以上，从而将延迟降低到实时交互所需的300毫秒阈值以下。

也就是说，在一套端到端的流程中，CPU推理延迟大概在3秒左右，但在T4 GPU上，整个过程只需要0.3秒。更重要的，原本TensorRT 5大概智能实现数十种不同的计算变化和优化，但到了TensorRT 7，已经可以做到1000种以上。

黄仁勋表示，现在技术已经进入了一个机器可以实时理解人类语言的AI新时代。在原有的TensorRT 5的基础上，各地开发人员能够更快部署会话式AI服务，从而实现更自然的AI人机交互。在首批使用NVIDIA会话式AI加速能力的企业中，包括了阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等中国企业。

继续为自动驾驶做足铺垫针对自动驾驶领域，NVIDIA发布了Xavier继任者NVIDIA DRIVE AGX Orin。

顾名思义，Orin是下一代机器人处理器SoC，它参数十分亮眼，包括170亿个晶体管，8核64位CPU，200TOPS深度学习算例，重点是，它的计算性能相当于Xavier的7倍。这意味着这是一个从底层架构上更新的AGX处理器，它的设计最早来自超算，拥有全新的功能安全特性，可以使CPU、GPU锁步运行而提升容错性，并且配备了全新的安全引擎保护数据不受网络攻击，以及与上一代Xavier兼容。

通过不同的组合，NVIDIA DRIVE 能够适配L2到L5级别的自动驾驶功能，其中Orin能做到与Xavier兼容，完全由软件定义。

在Orin宣布的同时，NVIDIA也宣布为滴滴提供自动驾驶和云计算解决方案，通过NVIDIA DRIVE，以及数据中心的NVIDIA GPU训练机器学习算法，滴滴已经能够实现L4几倍的自动驾驶推理能力。

作为滴滴自动驾驶AI处理的一部分，NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器（摄像头、激光雷达、雷达等）的数据，从而实现对汽车周围环境360度全方位的理解，并规划出安全的行驶路径。

用软件定义机器人平台整场演讲的重头戏，最终留给了Isaac SDK。Isaac SDK包括Isaac Robotics Engine（提供应用程序框架），Isaac GEM（预先构建的深度神经网络模型、算法、库、驱动程序和API），用于室内物流的参考应用程序以及Isaac Sim的第一个版本（提供导航功能）。

全新Isaac SDK可以大大加快研究人员、开发人员、初创企业和制造商开发和测试机器人的速度。它使机器人能够通过仿真获得由人工智能技术驱动的感知和训练功能，从而可以在各种环境和情况下对机器人进行测试和验证。

这个套件包含了Training-in-Sim工作流，使用随机域生成6D姿态图像，用于训练目标检测、像素分割、2D姿态、3D姿态等诸多内容。

最后现场，NVIDIA也给我们展示了一个会卖萌的Leonardo物体操纵机器人。通过模拟和真是世界的学习，Leonardo学会了如何遵守物理规则，在模拟的计算部分则运用到了GPU的PhysX 5.0物理引擎。

写在最后可以看到长达2小时的GTC CHINA 2019演讲中，新推出的芯片只有Orin一块。NVIDIA更多的重心放在了软件平台和AI智能优化上，通过硬件与软件配合，发挥CUDA给GPU带来的大规模并行处理优势，使得GPU走出游戏和渲染，找到了一个更广阔的空间。

NVIDIA造GPU无疑是最擅长的，如何用好GPU，则需要无数工程师努力挖掘答案。无论是超算、AI、自动驾驶、边缘计算，NVIDIA都已经牢牢占住了自己的位置，足以见得GPU对专业领域而言，同样具备强烈的吸引力。

责任编辑：wv

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5075

浏览量
103649
gpu

gpu

+关注

关注
28

文章
4768

浏览量
129319

利用NVIDIA DPF引领DPU加速云计算的未来

越来越多的企业开始采用加速计算，从而满足生成式 AI、5G 电信和主权云的需求。NVIDIA 推出了 DOCA 平台框架（DPF)，该框架提供了基础构建模块来释放 NVIDIA Blu

发表于 01-24 09:29 •199次阅读

利用<b class='flag-5'>NVIDIA</b> DPF引领DPU<b class='flag-5'>加速</b>云<b class='flag-5'>计算</b>的未来

借助NVIDIA GPU提升鲁班系统CAE软件计算效率

本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU，实现复杂产品的快速仿真，加速产品开发和设计迭代，缩短开发周期，提升产品竞争力。

发表于 12-27 16:24 •230次阅读

GPU加速云服务器怎么用的

GPU加速云服务器是将GPU硬件与云计算服务相结合，通过云服务提供商的平台，用户可以根据需求灵活租用带有GPU资源的虚拟机实例。那么，

发表于 12-26 11:58 •123次阅读

《CST Studio Suite 2024 GPU加速计算指南》

的各个方面，包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 -

发表于 12-16 14:25

NVIDIA加速全球大多数超级计算机推动科技进步

HPCwire 读者和编辑选择奖。自 2006 年发布 CUDA 以来，NVIDIA 不断推动 AI 和加速计算的进步，最新发布的全球最强超级计算机 TOP500 榜单突显了该公司

发表于 11-24 14:38 •385次阅读

<b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>全球大多数超级<b class='flag-5'>计算</b>机推动科技进步

将NVIDIA加速计算引入Polars

Polars 近日发布了一款由 RAPIDS cuDF 驱动的全新 GPU 引擎，该引擎可将 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍，使数据科学家仅在一台机器上就能实现在数秒内处理数亿行数据。

发表于 11-20 10:03 •297次阅读

将<b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b><b class='flag-5'>计算</b>引入Polars

NVIDIA加速计算如何推动医疗健康

近日，NVIDIA 企业平台副总裁 Bob Pette 在 AI Summit 一场演讲中重点谈论了 NVIDIA 加速计算如何推动医疗健康、网络安全和制造等行业实现转型。他表示，

发表于 11-20 09:10 •346次阅读

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和方法来利用GPU进行模型训练。 1. 了解GPU

发表于 11-05 17:43 •637次阅读

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

市的 Colossus 超级计算机集群达到了 10 万颗 NVIDIA® Hopper GPU 的巨大规模。该集群使用了 NVIDIA Spectrum-X™ 以太网网络平台，该平台

发表于 10-30 09:33 •176次阅读

AMD与NVIDIA GPU优缺点

在图形处理单元（GPU）市场，AMD和NVIDIA是两大主要的竞争者，它们各自推出的产品在性能、功耗、价格等方面都有着不同的特点和优势。一、性能 GPU的性能是用户最关心的指标之一。在高端市场

发表于 10-27 11:15 •973次阅读

GPU加速计算平台是什么

GPU加速计算平台，简而言之，是利用图形处理器（GPU）的强大并行计算能力来加速科学

发表于 10-25 09:23 •289次阅读

NVIDIA在加速计算和生成式AI领域的创新

在最新发布的公司 2024 财年可持续发展报告开篇的一封信中，NVIDIA 创始人兼首席执行官黄仁勋介绍了 NVIDIA 在加速计算和生成式 AI 领域的创新，以及 AI 技术在提高生

发表于 09-09 09:18 •638次阅读

NVIDIA 通过 CUDA-Q 平台为全球各地的量子计算中心提供加速

德国、日本和波兰的超级计算机利用 Grace-Hopper 和量子-经典加速超算平台推进量子计算研究德国汉堡 —— 国际超算大会（ISC）—— 2024 年 5 月 13 日

发表于 05-13 15:21 •219次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热 Embedding 全置于

发表于 04-20 09:39 •818次阅读

NVIDIA cuPQC帮助开发适用于量子计算时代的加密技术

NVIDIA cuPQC 可为相关开发者提供加速计算支持，帮助开发适用于量子计算时代的加密技术。cuPQC 库可利用 GPU 并行性，为要求

发表于 03-22 09:53 •474次阅读

搜索历史

NVIDIA GPU加速计算之路

评论

利用NVIDIA DPF引领DPU加速云计算的未来

借助NVIDIA GPU提升鲁班系统CAE软件计算效率

GPU加速云服务器怎么用的

《CST Studio Suite 2024 GPU加速计算指南》

NVIDIA加速全球大多数超级计算机推动科技进步

将NVIDIA加速计算引入Polars

NVIDIA加速计算如何推动医疗健康

PyTorch GPU 加速训练模型方法

NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

AMD与NVIDIA GPU优缺点

GPU加速计算平台是什么

NVIDIA在加速计算和生成式AI领域的创新

NVIDIA 通过 CUDA-Q 平台为全球各地的量子计算中心提供加速

利用NVIDIA组件提升GPU推理的吞吐

NVIDIA cuPQC帮助开发适用于量子计算时代的加密技术