英伟达 A100 GPU 全面上市，推理性能比 CPU 快 237 倍-电子发烧友网

英伟达 A100 GPU 全面上市，推理性能比 CPU 快 237 倍

根据英伟达官方的消息，在 AWS 运行 NVIDIA GPU 十周年之际，AWS 发布了采用全新 A100 的 Amazon EC2 P4d 实例。

IT之家了解到，现在已全面上市的全新 AWS P4d 实例采用最新 NVIDIA A100 Tensor Core GPU。A100 计算卡采用了 7nm 工艺的 GA100 GPU，这款 GPU 拥有 6912 CUDA 核心和 432 张量核心。GPU 封装尺寸为 826mm2，集成了 540 亿个晶体管。

英伟达表示，全新的 P4d 实例，为机器学习训练和高性能计算应用提供 AWS 上性能与成本效益最高的 GPU 平台。与默认的 FP32 精度相比，全新实例将 FP16 机器学习模型的训练时间减少多达 3 倍，将 TF32 机器学习模型的训练的时间减少多达 6 倍。

这些实例还提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基准测试中一骑绝尘，实现了比 CPU 快 237 倍的性能。

每个 P4d 实例均内置八个 NVIDIA A100 GPU，通过 AWS UltraClusters，客户可以利用 AWS 的 Elastic Fabric Adapter（EFA）和 Amazon FSx 提供的可扩展高性能存储，按需、可扩展地同时访问多达 4，000 多个 GPU。P4d 提供 400Gbps 网络，通过使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技术，进一步加速深度学习训练的工作负载。EFA 上的 NVIDIA GPUDirect RDMA 在服务器之间可通过 GPU 传输数据，无需通过 CPU 和系统内存，从而确保网络的低延迟。

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10869

浏览量
211869
gpu

gpu

+关注

关注
28

文章
4742

浏览量
128966
机器学习

机器学习

+关注

关注
66

文章
8420

浏览量
132680
英伟达

英伟达

+关注

关注
22

文章
3778

浏览量
91146
A100

A100

+关注

关注
0

文章
27

浏览量
7794

苹果 A18 芯片发布：CPU 提升 30%、GPU 提升 40%

核 CPU 包括 2 个性能核心和 4 个效率核心，比 iPhone 15 的 A16 Bionic 快 30%，能耗降低 30% 。

发表于 09-11 12:19 •650次阅读

苹果 <b class='flag-5'>A</b>18 芯片发布：<b class='flag-5'>CPU</b> 提升 30%、<b class='flag-5'>GPU</b> 提升 40%

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

近期，第五代英特尔®至强®可扩展处理器通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试（AISBench）。英特尔成为首批通过AISBench大语言模型（LLM）推理性能测试的企业

发表于 09-06 15:33 •349次阅读

开箱即用，AISBench测试展示英特尔至强处理器的卓越<b class='flag-5'>推理性能</b>

英伟达将全面转向开源GPU内核模块

英伟达公司近期宣布了一项重大决策，即全面转向开源GPU内核模块，并计划最终以此取代闭源驱动程序。这一战略转变标志着英伟

发表于 07-19 15:26 •570次阅读

英伟达GPU新品规划与HBM市场展望

在COMPUTEX 2024主题演讲中，英伟达（NVIDIA）公布了其GPU产品的未来规划。据英伟达透露，B

发表于 06-13 09:44 •820次阅读

成都汇阳投资关于英伟达 GB200+终端快速放量，这一材料需求快速提升

CPU)，单 GB200 NVL72 机架可包含 72 颗 GPU，提供 720PFLOPs 训练性能 + 1440PFLOPs 推理性能。互联模式通过 NV Switch 实现，其

发表于 06-07 09:29 •517次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

架构在高性能计算方面的应用有哪些？ **1. **人工智能训练和推理 Blackwell 架构的 GPU 核心在训练性能上相较前代 Hopper H

发表于 05-13 17:16

美方持续收紧AI芯片对华出口限制，英伟达等巨头面临挑战

为了挽回中国市场，英伟达不得不做出妥协，推出了符合美方限制政策的A100和A800芯片。

发表于 04-02 16:28 •1206次阅读

英伟达发布性能大幅提升的新款B200 AI GPU

英伟达宣称，B200在性能上比以往最好的GPU快30倍

发表于 03-20 09:37 •809次阅读

英伟达H200和A100的区别

英伟达H200和A100两款芯片在性能、架构、内存以及应用场景等多个方面存在显著的区别。

发表于 03-07 16:23 •3649次阅读

英伟达H200和A100的差异

英伟达H200和A100在多个方面存在差异。

发表于 03-07 16:18 •2570次阅读

英伟达缩短AI GPU交付周期，持续推进算力产业链发展

与此同时，随着人工智能的迅猛发展及其广泛应用，对像H100和A100这类专为数据中心设计的高性能GPU的需求也大幅增长。而包括Yotta在内的多家公司因此纷纷加大向

发表于 02-18 09:36 •525次阅读

为什么GPU比CPU更快？

GPU比CPU更快的原因并行处理能力：GPU可以同时处理多个任务和数据，而CPU通常只能一次处理一项任务。这是因为

发表于 01-26 08:30 •2421次阅读

猛兽财经：2024年继续看好英伟达的两个理由

2023年可以说是英伟达成立近30年以来最好的一年。由于大语言模型带动的训练和推理算力需求的增加，导致市场对英伟达AI芯片(H100、

发表于 01-11 16:24 •938次阅读

2024年，GPU能降价吗？

首当其冲的就是A100GPU。OpenAI使用的是3,617台HGXA100服务器，包含近3万块英伟达GPU。国内云计算相关专家认为，做好A

发表于 01-03 15:57 •858次阅读

英伟达Grace-Hopper提供一个紧密集成的CPU + GPU解决方案

英伟达Grace-Hopper提供了一个紧密集成的CPU + GPU解决方案，针对生成式人工智能逐渐成为主导的市场环境。

发表于 01-02 15:52 •925次阅读

搜索历史

英伟达 A100 GPU 全面上市，推理性能比 CPU 快 237 倍

评论

苹果 A18 芯片发布：CPU 提升 30%、GPU 提升 40%

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

英伟达将全面转向开源GPU内核模块

英伟达GPU新品规划与HBM市场展望

成都汇阳投资关于英伟达 GB200+终端快速放量，这一材料需求快速提升

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

美方持续收紧AI芯片对华出口限制，英伟达等巨头面临挑战

英伟达发布性能大幅提升的新款B200 AI GPU

英伟达H200和A100的区别

英伟达H200和A100的差异

英伟达缩短AI GPU交付周期，持续推进算力产业链发展

为什么GPU比CPU更快？

猛兽财经：2024年继续看好英伟达的两个理由

2024年，GPU能降价吗？

英伟达Grace-Hopper提供一个紧密集成的CPU + GPU解决方案