0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达新一代GPU架构安培A100发布,实现高达20倍的性能提升

牵手一起梦 来源:雷锋网 作者:包永刚 2020-05-15 14:48 次阅读

突如其来的新冠肺炎大流行打乱了众多公司产品发布计划,比如本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布。今天,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培,并带来了基于安培架构GPU A100的DGX-A100 AI系统和面向边缘AI计算的EGX A100。

有意思的是,受疫情影响,已经在家工作四十五天的黄仁勋是在家里的厨房提前录制了演讲视频,用三个视频完成了2020 GTC的主题演讲和新品发布。

此次GTC 2020最重磅的产品自然是安培架构GPU A100,这是目前全球最大的7nm芯片,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升,并且可以同时满足AI训练和推理的需求。

由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。

第八代安培GPU架构性能提升高达20倍

安培是英伟达继2018发布的Turing(图灵)架构之后的最新一代GPU架构,也是英伟达推出的第八代GPU架构。黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。这是有史以来首次,可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。A100将在提高吞吐量的同时,降低数据中心的成本。”

据悉,第八代安培架构GPU采用的是台积电7nm工艺,使用的是最新的3D封装技术,集成540亿个晶体管也让安培架构GPU A100成为了全球最大的7nm芯片。除此之外,A100还有另外四大关键特性:

具有TF32的第三代 Tensor Core核心,英伟达广泛采用的 Tensor Core核心现在已变得更加灵活、快速且易于使用。

多实例GPU-MG,一种全新技术功能,可将单个A100GPU分割为多达七个独立的GPU,为不同规模的工作提供不同的计算力,以此实现最佳利用率和投资回报率的最大化。

第三代 NVIDIA NVLInk,使GPU之间的高速联接增加至原来的两倍,实现服务器的高效性能扩展。

结构化稀疏,这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。

对于具有TF32的第三代Tensor Core核心,黄仁勋解释,其功能经过扩展后加入了专为AI开发的全新TF32,它能在无需更改任何代码的情况下,使FP32精度下的AI性能提高多达20倍。此外,TensorCore核心现在支持FP64精度,相比于前代,其为HPC应用所提供的计算力比之前提高了多达2.5倍。

20倍的提升之所以是对比2017年发布的Volta架构而不是2018年发布的图灵架构,雷锋网(公众号:雷锋网)认为主要是因为此前英伟达发布的两代AI系统DGX-1和DGX-2都是基于Volta架构GPU Tesla V100,今天推出的基于安培架构的DGXA100是最新第三代AI系统,把两者进行对比更有意义。

凭借这些新功能,英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

不过,雷锋网认为,灵活性是性能之外A100更重要的竞争力所在,这个灵活性包括三个层面,第一个层面是A100采用的弹性计算技术能够为每项工作分配适量的计算能力,多实例GPU技术可将每个A100 GPU分割为多达七个独立实例来执行推理任务。

第二个层面,第三代NVLink互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。

最后一个也是最重要的,安培架构的A100既可以做训练也可以做推理。英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。

2017年发布Volta架构的时候,黄仁勋就说:“从 Volta 开始,英伟达 GPU 将对训练、推理兼顾,可谓是革命性的突破。”三年后,他在很大程度上兑现了自己所说的,而这也能够继续保持英伟达在AI市场的领导力。

要把这个问题说清楚就得从最新推出的DGX A100说起。

DGX A100单节点性能达创纪录的5 Petaflops

黄仁勋表示,“AI已经被应用到云计算、汽车、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”

为此,英伟达推出了第三代AI系统DGX A100,高达5 Petaflops(每秒一千万亿(10的15次方)次浮点运算)的Al性能刷新的全球最高激励,并且首次将整个数据中心的性能和功能集成到一个灵活的平台中。

DGXA100系统集成了8个A100 Tensor Core GPU, 具有320GB内存用以训练最大型的AI数据集,以及速度可达200Gbps MeLLanox HDR互连。

另外,利用A100的多实例GPU功能,每台DGXA100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。

总结起来,DGX A100有6大技术特性:

8 个 NVIDIA A100 TensorCore GPU, Al 性能达 5PetafLops, GPU 内存共 320GB ,有着每秒 12.4TB的带宽。

6 个采用第三代NVIDIA NVLink技术的NVIDIA NVSwitch互联结构,4.8TB每秒的双向带宽

9个 MeLLanox ConnectX-6 HDR 200Gb/s网络接口,提供总计每秒3.6TB的双向带宽。 MeLLanox网络计算和网络加速引擎,例如RDMA、GPUDirect,以 及SHARP技术,实现最高性能和可扩展性。

15TB Gen4 NVMe 内存,速度比 Gen3 NVMe SSDs 快 2 倍。

NVIDIA DGX软件堆栈,其中包括专为AI和数据科学工作负载而优化的软件,能够实现性 能的最大化,使企业能够更快获得AI基础架构投资回报。

DGX A100系统的起售价为19.9万美元,英伟达已经开始销售DGXA100。19.9万美元看起来十分昂贵,但其实可以为云服务提供商降低成本和功耗,这是云服务提供商的痛点。

黄仁勋说,通过一个价值100万美元由5个DGX A100系统组成的机架,可以取代当下价值1100万美元,由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且,功耗也可以由630kW大幅降低至28kW。

也就是说,5个DGXA100组成的系统,实现相同的性能,耗电量为现有数据中心系统的1/20,空间为1/25,成本为1/10。

据悉,DGXA100的首批订单将送往美国能源部的阿贡国家实验室(Argonne National Laboratory),该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。

更厉害的是,英伟达还展示了新一代DGXSuper POD,这个集群由140台 DGXA100系统组成,AI算力高达700 Petaflops,利用 MeLLanox HDR 200Gbps InfiniBand 互连技术,NVIDIA 将 140 台 DGX A100 系统结合在一起,构建了 DGXSuper POD AI超级计算机,用于内部对话式AI、基因组学和自动 驾驶等领域的研究。

黄仁勋称,DGXSuper POD集群是全球速度最快的AI超级计算机之一,其性能相当于此前数千台服务器的性能。凭借DGXA100的企业就绪型架构和性能,NVIDIA得以在不到一个月的时间内构建了该系统,而以往交付具备这样能力的超级计算机需要花费数月甚至数年的时间来计划和采购专用的组件。

另外,为帮助客户构建他们自己的由A100提供算力的数据中心,英伟达发布了全新DGX Super POD参考架构。还推出了 NVIDIA DGXpert计划 , 帮助DGX客户与英伟达的Al专家建立联系。同时,英伟达还推出DGX-Ready软件计划,帮助用户在AI工作流程中充分利用各种经过认证的企业级软件。

更高性价比,更具灵活性的DGXA100对于全球的云服务提供商以及研究机构显然都很有吸引力,同样基于A100的EGXA100也同样如此。

两款边缘AI平台扩大生态系统

面向边缘AI市场,英伟达此次GTC 2020推出了两款计算平台,分别是适用于较大型商业通用服务器上的EGX A100和适用于微型边缘服务器的微型EGX Jetson Xavier NX 。

黄仁勋介绍说,EGXA100聚合加速器和EGX Jetson Xavier NX微型边缘服务器分别被设计用于满足不同尺寸、成本和性能需求。例如搭载了EGX A100的服务器可以管理机场中的数百台摄像头,而 EGX Jetson Xavier NX则可用于管理便利店中的少量摄像头。而云原生技术支持能够确保整个EGX产品家族都可以使用同一经过优化的AI软件轻松构建和部署AI应用。

其中,EGXA100是基于安培架构的A100 GPU,借助英伟达的MeLLanox ConnectX-6 Dx板载网卡,EGXA100可以每秒接收高达200 Gb的数据并将其直接发送到GPU内存以进行AI或 5G信号处理。

EGXA100作为一个云原生软件定义加速器,可以处理对延迟最敏感的5G应用,这为在一个行动点(如:商店、医院和工厂车间)做出智能实时决策提供了局性能AI和 5G平台。

EGX Jetson Xavier NX没有采用最新GPU,不过英伟达称其为全球体积最小、性能最强大的Al超级计算机,适用于微型服务器和边缘智能物联网盒。

据悉,在EGX Jetson Xavier NX的生态圈内,合作伙伴已提供了超过20种解决方案。可以将英伟达Xavier SoC的性能整合到了一个信用卡大小的模块中,运行 EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据。

值得一提的是,EGX边缘AI平台的云原生架构使其可以运行容器化的软件,英伟达应用框架包括了用于医疗领域的Clara、用于电信领域的Aerial、用于对话式AI领域的Jarvis、用于机器人技术领域的Isaac, 以及用于零售、智慧城市、交通等领域的Mertopolis。

目前整个EGX产品家族均支持云原生技术,因此智能机器制造商和AI应用开发者们可以在嵌入式及边缘设备上构建和部署针对机器人技术、智慧城市、医疗、工业物联网等领域的的软件定义功能。

雷锋网小结

三年前的5月,黄仁勋发布了Volta架构的Tesla V100 GPU,并推出了基于它的AI系统DGX-1。今天,由于新冠肺炎疫情的影响,本来计划在三月发布的最新一代安培架构推迟到了5月。基于安培架构的首款GPU A100是全球最大的7nm芯片,性能相比Volta架构提升最高可以达到20倍,一个架构就可以同时应用于云端和边缘端。

更为重要的是,基于A100的DGXA100 AI系统能够帮助云服务提供商大幅降低数据中心的硬件采购成本和电费支出(这是数据中心的重要支出)。同样基于A100的EGXA100边缘计算平台能够将AI应用于更多的AI场景以及已经开始商用的5G市场。

这种架构的灵活性以及产品的灵活组合,能够让英伟达昂贵的GPU有高的性价比,而安培架构更好实现训练和推理性能的提升,也更有助于英伟达打造云端和边缘端一体化的AI产品,保持在AI市场的竞争力。

可以看到,在云端市场英伟达用安培架构GPU同时满足训练和推理需求,这将在云端AI推理芯片市场占有优势的英特尔带来更大的竞争压力,而想要挑战云端芯片市场的AI芯片的初创公司难度也进一步升级。在边缘市场,英伟达用高性能、多产品组合去满足市场丰富的应用需求,持续开拓生态,要将云端的优势拓展至边缘端。

这样看来,已经在数据中心、汽车、医疗AI市场都有优势的英伟达,还正在与开源社区合作为Apache Spark 3.0带来端到端的GPU加速,正进一步向AI市场发起了全面的攻势。这是否意味着英伟达离AI产品收入高于游戏显卡收入的时代也不远了?

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128691
  • AI
    AI
    +关注

    关注

    87

    文章

    30105

    浏览量

    268389
  • 英伟达
    +关注

    关注

    22

    文章

    3743

    浏览量

    90825
收藏 人收藏

    评论

    相关推荐

    英伟加速AI芯片迭代,推出Rubin架构计划

    在近日举办的COMPUTEX 2024展会上,英伟CEO黄仁勋再次展现了公司在人工智能(AI)芯片领域的雄心壮志。他公布了下一代AI芯片架构“Rubin”,这是继今年3月
    的头像 发表于 06-03 11:36 777次阅读

    步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    2024年3月19日,[英伟]CEO[黄仁勋]在GTC大会上公布了新一代AI芯片架构BLACKWELL,并推出基于该架构的超级芯片GB20
    发表于 05-13 17:16

    英伟发布两款Ampere架构专业可视化GPU:RTX A400与RTX A10

    RTX A400和RTX A1000旨在替代2021年发布的T1000和T400,以及T600,成为英伟最后三款未纳入NVIDIA RTX
    的头像 发表于 04-17 16:27 924次阅读

    英伟发布新一代AI芯片架构Blackwell GPU

    近日,英伟首席执行官黄仁勋在GTC 2024会议上发表主题演讲,重磅推出全新AI芯片架构Blackwell GPU。这创新技术的首款芯片
    的头像 发表于 03-26 11:19 821次阅读

    英伟宣布推出新一代GPU Blackwell,SK海力士已量产HBM3E

    英伟GTC 2024大会上,英伟CEO黄仁勋宣布推出新一代GPU Blackwell,第
    的头像 发表于 03-20 11:32 1122次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>宣布推出<b class='flag-5'>新一代</b><b class='flag-5'>GPU</b> Blackwell,SK海力士已量产HBM3E

    英伟发布新一代AI芯片B200

    在美国加州圣何塞举办的英伟GTC生态大会上,英伟CEO黄仁勋以场震撼人心的演讲,正式推出了公司的
    的头像 发表于 03-20 10:07 918次阅读

    英伟发布性能大幅提升的新款B200 AI GPU

    英伟宣称,B200在性能上比以往最好的GPU快30不止。由它构成的服务器集群相比上一代,运算
    的头像 发表于 03-20 09:37 737次阅读

    英伟新一代AI芯片Blackwell GPU,AI算力能力较上代提升30

    黄仁勋说:"我们已经来到了个临界点,因此需要种新的计算方式来加速整个行业的发展效率。那么英伟能够做什么?当然,答案就是——更大的芯片。”接着,
    的头像 发表于 03-19 13:39 1698次阅读

    英伟H200和A100的区别

    英伟H200和A100两款芯片在性能架构、内存以及应用场景等多个方面存在显著的区别。
    的头像 发表于 03-07 16:23 3373次阅读

    英伟H200和A100的差异

    英伟H200和A100在多个方面存在差异。
    的头像 发表于 03-07 16:18 2234次阅读

    英伟新一代AI芯片预计2025年亮相

    近日,服务器制造商戴尔在业界交流活动中透露了英伟即将发布新一代人工智能(AI)GPU信息。这款代号为Blackwell的芯片预计将在功耗
    的头像 发表于 03-05 10:26 768次阅读

    英伟:预计下一代AI芯片B100短缺,计划扩产并采用新架构

    近期热门的 H100 芯片运期短缩数天后,英伟新型 AI 旗舰芯片 B100搭载全新的 Blackwell,有望使 AI 计算性能
    的头像 发表于 02-25 09:29 868次阅读

    英伟缩短AI GPU交付周期,持续推进算力产业链发展

    与此同时,随着人工智能的迅猛发展及其广泛应用,对像H100A100这类专为数据中心设计的高性能GPU的需求也大幅增长。而包括Yotta在内的多家公司因此纷纷加大向
    的头像 发表于 02-18 09:36 484次阅读

    英伟和华为/海思主流GPU型号性能参考

    句话总结,H100 vs. A100:3 性能,2 价格 值得注意的是,HCCS vs
    发表于 12-29 11:43 5426次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>和华为/海思主流<b class='flag-5'>GPU</b>型号<b class='flag-5'>性能</b>参考

    英伟用AI设计GPU算术电路有何优势

    大量的算术电路阵列为英伟GPU提供了动力,以实现前所未有的AI、高性能计算和计算机图形加速。因此,改进这些算术电路的设计对于
    发表于 12-05 11:05 403次阅读