性能提升20倍！NVIDIA A100 GPU打破16项AI芯片性能记录-电子发烧友网

2020年7月30日，MLPerf组织发布第三个版本MLPerf Trainingv0.7基准测试（Benchmark）结果。结果显示，英伟达基于今年5月最新发布的Ampere架构A100 TensorCore GPU，和HDR InfiniBand实现多个DGXA100系统互联的庞大集群——DGX SuperPOD系统在性能上开创了八个全新里程碑，共打破16项纪录。

MLPerf是成立于2018年5月的行业基准测试组织，致力于机器学习硬件、软件和服务的训练和推理性能测试，囊括行业中几乎所有知名企业和机构，比如Intel、NVIDIA、Google、微软、阿里巴巴等。

DGX SuperPOD系统公布于去年6月17号。最初由96台NVIDIA DGX-2H超级计算机和Mellanox互连技术在短短三周内建成，提供9.4千兆次的处理能力，用于该公司在无人驾驶车辆部署计划中的需求。

而此次创造纪录的NVIDIA DGX SuperPOD系统主要基于Ampere架构以及Volta架构，并且搭载了今年5月份发布的Ampere架构GPU A100。

黄仁勋在GTC 2020大会上说道，A100是迄今为止人类制造出的最大7纳米制程芯片。A100采用目前最先进的台积电（TSMC）7纳米工艺，拥有540亿个晶体管，它是一块3D堆叠芯片，面积高达826mm^2，GPU的最大功率达到了400W。

这块GPU上搭载了容量40G的三星HBM2显存（比DDR5速度还快得多，就是很贵），第三代TensorCore。同时它的并联效率也有了巨大提升，其采用带宽600GB/s的新版NVLink，几乎达到了10倍PCIE互联速度。

随着安培架构出现的三代TensorCore对稀疏张量运算进行了特别加速：执行速度提高了一倍，也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系统会自动将数据转为TF32格式加速运算，现在你无需修改任何代码量化了，直接自动训练即可。

A100也针对云服务的虚拟化进行了升级，因为全新的multi-instanceGPU机制，在模拟实例时，每块GPU的吞吐量增加了7倍。

最终在跑AI模型时，如果用PyTorch框架，相比上一代V100芯片，A100在BERT模型的训练上性能提升6倍，BERT推断时性能提升7倍。

电子发烧友综合报道，参考自镁客网、机器之心，转载请注明来源和出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5109

浏览量
104527
gpu

gpu

+关注

关注
28

文章
4832

浏览量
129802

英伟达A100和H100比较

英伟达A100和H100都是针对高性能计算和人工智能任务设计的GPU，但在性能和特性上存在显著差异。以下是对这两款

发表于 02-10 17:05 •1886次阅读

英伟达<b class='flag-5'>A100</b>和H<b class='flag-5'>100</b>比较

NVIDIA和GeForce RTX GPU专为AI时代打造

NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。

发表于 01-06 10:45 •316次阅读

借助NVIDIA GPU提升鲁班系统CAE软件计算效率

本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU，实现复杂产品的快速仿真，加速产品开发和设计迭代，缩短开发周期，提升产

发表于 12-27 16:24 •344次阅读

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构，在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈，合并访存机制巧妙解决了内存带宽限制。NVIDIA

发表于 11-24 17:12

NPU技术如何提升AI性能

设计的处理器，与传统的CPU和GPU相比，它在执行深度学习任务时具有更高的效率和更低的能耗。NPU通过专门优化的硬件结构和指令集，能够更快地处理神经网络中的大量并行计算任务。 1. 优化硬件架构 NPU技术通过优化硬件架构来提升AI

发表于 11-15 09:11 •953次阅读

苹果 A18 芯片发布：CPU 提升 30%、GPU 提升 40%

核 CPU 包括 2 个性能核心和 4 个效率核心，比 iPhone 15 的 A16 Bionic 快 30%，能耗降低 30% 。 GPU 方面，A18

发表于 09-11 12:19 •927次阅读

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

和像素统一的G80到现在重金难求的H100；AMD的Zen系列CPU和RDNA系列GPU两线作战；中国的高性能计算芯片逐步获得更多TOP500排名；华为Ascend 910 NPU

发表于 09-02 10:09

只能跑Transformer的AI芯片，却号称全球最快？

跑transformer架构的模型。 Sohu，比H100快上20倍之所以打算Sohu这一自研ASIC AI芯片，是因为Etched认为

发表于 07-01 09:03 •1635次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

，推理能力提升 15 倍 GB200由两个B200Blackwell GPU和一个基于Arm的Grace CPU组成，采用[台积电]4纳米工艺制程，共有2080亿个[晶体管]，其AI

发表于 05-13 17:16

龙芯：自主研发CPU提升性能，单核通用性能提高20倍

张戈强调，龙芯CPU的主要IP核均为自主研发，这使得其性价比得到显著提升。他指出，国产CPU与主流CPU的差距主要体现在单核性能上，而非多核性能。近年来，龙芯CPU的单核通用性能已

发表于 04-25 15:26 •939次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •885次阅读

Meta第二代自研AI芯片出世，性能提升三倍以上

芯片，MTIA v2。基于5nm打造，性能三倍以上相较上一代MTIA v1，新的MTIA v2的工艺从台积电的7nm换成了台积电5nm，芯片主频也从800MHz

发表于 04-15 09:25 •2399次阅读

英伟达发布性能大幅提升的新款B200 AI GPU

英伟达宣称，B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代，运算能力飞跃性提升，甚至能使大语言模型的训练速度翻番。

发表于 03-20 09:37 •980次阅读

英伟达发布超强AI加速卡，性能大幅提升，可支持1.8万亿参数模的训练

得益于NVIDIA每两年进行一次GPU架构升级以提高性能的策略，全新的基于Blackwell的加速卡比之前的H100更为强大，尤其适用于AI

发表于 03-19 12:04 •1040次阅读

NVIDIA 发布全新交换机，全面优化万亿参数级 GPU 计算和 AI 基础设施

NVIDIA 软件实现了跨 Blackwell GPU、新交换机和 BlueField-3 SuperNIC 的分布式计算，大幅提升了 AI、数据处理、高

发表于 03-19 10:05 •453次阅读

搜索历史

性能提升20倍！NVIDIA A100 GPU打破16项AI芯片性能记录

评论

英伟达A100和H100比较

NVIDIA和GeForce RTX GPU专为AI时代打造

借助NVIDIA GPU提升鲁班系统CAE软件计算效率

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

NPU技术如何提升AI性能

苹果 A18 芯片发布：CPU 提升 30%、GPU 提升 40%

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

只能跑Transformer的AI芯片，却号称全球最快？

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

龙芯：自主研发CPU提升性能，单核通用性能提高20倍

利用NVIDIA组件提升GPU推理的吞吐

Meta第二代自研AI芯片出世，性能提升三倍以上

英伟达发布性能大幅提升的新款B200 AI GPU

英伟达发布超强AI加速卡，性能大幅提升，可支持1.8万亿参数模的训练

NVIDIA 发布全新交换机，全面优化万亿参数级 GPU 计算和 AI 基础设施