0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

性能提升20倍!NVIDIA A100 GPU打破16项AI芯片性能记录

Carol Li 来源:电子发烧友整理 作者:李弯弯 2020-07-31 08:03 次阅读

2020年7月30日,MLPerf组织发布第三个版本MLPerf Trainingv0.7基准测试(Benchmark)结果。结果显示,英伟达基于今年5月最新发布的Ampere架构A100 TensorCore GPU,和HDR InfiniBand实现多个DGXA100系统互联的庞大集群——DGX SuperPOD系统在性能上开创了八个全新里程碑,共打破16项纪录。

MLPerf是成立于2018年5月的行业基准测试组织,致力于机器学习硬件、软件和服务的训练和推理性能测试,囊括行业中几乎所有知名企业和机构,比如Intel、NVIDIA、Google、微软、阿里巴巴等。

DGX SuperPOD系统公布于去年6月17号。最初由96台NVIDIA DGX-2H超级计算机和Mellanox互连技术在短短三周内建成,提供9.4千兆次的处理能力,用于该公司无人驾驶车辆部署计划中的需求。

而此次创造纪录的NVIDIA DGX SuperPOD系统主要基于Ampere架构以及Volta架构,并且搭载了今年5月份发布的Ampere架构GPU A100。

黄仁勋在GTC 2020大会上说道,A100是迄今为止人类制造出的最大7纳米制程芯片。A100采用目前最先进的台积电(TSMC)7纳米工艺,拥有540亿个晶体管,它是一块3D堆叠芯片,面积高达826mm^2,GPU的最大功率达到了400W。

这块GPU上搭载了容量40G的三星HBM2显存(比DDR5速度还快得多,就是很贵),第三代TensorCore。同时它的并联效率也有了巨大提升,其采用带宽600GB/s的新版NVLink,几乎达到了10倍PCIE互联速度。

随着安培架构出现的三代TensorCore对稀疏张量运算进行了特别加速:执行速度提高了一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系统会自动将数据转为TF32格式加速运算,现在你无需修改任何代码量化了,直接自动训练即可。

A100也针对云服务的虚拟化进行了升级,因为全新的multi-instanceGPU机制,在模拟实例时,每块GPU的吞吐量增加了7倍。

最终在跑AI模型时,如果用PyTorch框架,相比上一代V100芯片,A100在BERT模型的训练上性能提升6倍,BERT推断时性能提升7倍。

电子发烧友综合报道,参考自镁客网、机器之心,转载请注明来源和出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5087

    浏览量

    103914
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4795

    浏览量

    129498
收藏 人收藏

    评论

    相关推荐

    英伟达A100和H100比较

    英伟达A100和H100都是针对高性能计算和人工智能任务设计的GPU,但在性能和特性上存在显著差异。以下是对这两款
    的头像 发表于 02-10 17:05 791次阅读
    英伟达<b class='flag-5'>A100</b>和H<b class='flag-5'>100</b>比较

    借助NVIDIA GPU提升鲁班系统CAE软件计算效率

    本案例中鲁班系统高性能 CAE 软件利用 NVIDIA性能 GPU,实现复杂产品的快速仿真,加速产品开发和设计迭代,缩短开发周期,提升
    的头像 发表于 12-27 16:24 263次阅读

    《算力芯片性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构,在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈,合并访存机制巧妙解决了内存带宽限制。NVIDIA
    发表于 11-24 17:12

    NPU技术如何提升AI性能

    设计的处理器,与传统的CPU和GPU相比,它在执行深度学习任务时具有更高的效率和更低的能耗。NPU通过专门优化的硬件结构和指令集,能够更快地处理神经网络中的大量并行计算任务。 1. 优化硬件架构 NPU技术通过优化硬件架构来提升AI
    的头像 发表于 11-15 09:11 800次阅读

    苹果 A18 芯片发布:CPU 提升 30%、GPU 提升 40%

    核 CPU 包括 2 个性能核心和 4 个效率核心,比 iPhone 15 的 A16 Bionic 快 30%,能耗降低 30% 。 GPU 方面,A18
    的头像 发表于 09-11 12:19 839次阅读
    苹果 <b class='flag-5'>A</b>18 <b class='flag-5'>芯片</b>发布:CPU <b class='flag-5'>提升</b> 30%、<b class='flag-5'>GPU</b> <b class='flag-5'>提升</b> 40%

    名单公布!【书籍评测活动NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

    和像素统一的G80到现在重金难求的H100;AMD的Zen系列CPU和RDNA系列GPU两线作战;中国的高性能计算芯片逐步获得更多TOP500排名;华为Ascend 910 NPU
    发表于 09-02 10:09

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    ,推理能力提升 15 GB200由两个B200Blackwell GPU和一个基于Arm的Grace CPU组成,采用[台积电]4纳米工艺制程,共有2080亿个[晶体管],其AI
    发表于 05-13 17:16

    龙芯:自主研发CPU提升性能,单核通用性能提高20

    张戈强调,龙芯CPU的主要IP核均为自主研发,这使得其性价比得到显著提升。他指出,国产CPU与主流CPU的差距主要体现在单核性能上,而非多核性能。近年来,龙芯CPU的单核通用性能
    的头像 发表于 04-25 15:26 893次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 843次阅读

    Meta第二代自研AI芯片出世,性能提升以上

    芯片,MTIA v2。 基于5nm打造,性能以上 相较上一代MTIA v1,新的MTIA v2的工艺从台积电的7nm换成了台积电5nm,芯片主频也从800MHz
    的头像 发表于 04-15 09:25 2338次阅读
    Meta第二代自研<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>出世,<b class='flag-5'>性能</b><b class='flag-5'>提升</b>三<b class='flag-5'>倍</b>以上

    英伟达发布超强AI加速卡,性能大幅提升,可支持1.8万亿参数模的训练

    得益于NVIDIA每两年进行一次GPU架构升级以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更为强大,尤其适用于AI
    的头像 发表于 03-19 12:04 953次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA 软件实现了跨  Blackwell GPU、新交换机和 BlueField-3 SuperNIC 的分布式计算,大幅提升AI、数据处理、高
    发表于 03-19 10:05 433次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 <b class='flag-5'>GPU</b> 计算和 <b class='flag-5'>AI</b> 基础设施

    M3芯片A16芯片哪个强

    M3芯片A16芯片各有优势,难以简单地判断哪个更强。M3芯片是专为苹果自家设备设计的处理器,其图形处理能力和神经网络运算能力表现出色,适合处理高
    的头像 发表于 03-13 16:30 1321次阅读

    英伟达H200和A100的区别

    英伟达H200和A100两款芯片性能、架构、内存以及应用场景等多个方面存在显著的区别。
    的头像 发表于 03-07 16:23 4126次阅读

    瑞萨电子将AI半导体处理性能最多提高至16

    日本瑞萨电子公司(Renesas Electronics)最近公布了一重大技术突破,他们成功开发了一种新技术,可以将面向人工智能(AI)的半导体的处理性能提升最多至
    的头像 发表于 02-27 17:40 918次阅读