Nvidia的第一款基于Ampere的图形卡A100 GPU在826mm 2 的硅上封装了540亿个晶体管,成为世界上最大的7纳米芯片。今天,在Nvidia首席执行长黄仁勋(Jensen Huang)的预先录制的“厨房主题演讲”中推出了Ampere架构,该架构沿袭了前辈Volta的脚步,一个巨型GPU开启了晶体管,AI专业化和整体性能的表盘。12nm Volta和7nm Ampere均由台积电制造。
加上TensorFloat-32(TF32)张量核心,峰值单精度性能比哥哥的Volta(V100)理论上提高了10-20倍。HPC工作负载受益于峰值双精度浮点性能提高250%,这归功于用于HPC处理的新的符合IEEE的张量核心指令。
其他新功能包括:
•多实例GPU(又称MIG),可将单个A100 GPU划分为多达七个独立的GPU。
•第三代Nvidia NVLink结构,将GPU之间的高速连接性提高了一倍。
•结构稀疏性,它在Tensor核心中引入了对稀疏矩阵运算的支持,并将其加速了两倍。
Ampere将Nvidia的单一通用GPU策略加倍,该策略是由支持HPC,AI和图形的Volta架构引入的。“在[使用Ampere A100]时,无需拥有一堆Volta GPU服务器,一堆T4 GPU服务器和CPU服务器,所有这些现在都可以在一个统一的Ampere服务器上运行,”黄在为昨天的媒体。
Huang补充说:“毫无疑问,这是我们首次将整个数据中心的加速工作负载整合到一个平台中。” “您知道,从视频分析到图像处理再到语音再到训练再到推理的一切,数据处理现在是一台统一服务器。”
Huang在这里指的是今天也推出的新型DGX机器。DGX A100由八个A100 GPU供电,它们一起提供320GB的内存和每秒12.4TB的带宽。六个具有第三代NVLink结构的NVSwitch连接GPU,每秒提供4.8TB的双向带宽。每个DGX 100系统都提供9个Mellanox ConnectX-6 200Gb / s网络接口和15TB Gen4 NVMe存储。
对于第三代“ DGX”,英伟达做出了另一项改变,只有昨天的简报或其他新闻材料没有强调。最新的DGX取代了两个Broadwell Intel Xeon,而是配备了两个64核AMD Epyc Rome CPU。此举可能预示着英伟达(Nvidia)会推迟英特尔正在涌现的GPU业务,或者可能是受AMD的性价比故事激励。
现在还可以选择Arm CPU选项,并且围绕GPU加速的Arm正在进行大量的开发活动,因此看到第四代DGX中的另一次CPU升级也就不足为奇了。Nvidia可以选择Marvell或Ampere(hmm)的Arm服务器芯片,也可以决定采用全孔技术,并将内部开发的Arm CPU添加到其不断增长的堆栈中。
说到Nvidia的堆栈-四年前通过宣布(现已完成)收购Mellanox引入DGX-1,Nvidia避开了系统制造商的称号,意识到与OEM合作伙伴的潜在冲突。这种不情愿似乎已经减少。
Nvdia数据中心和云平台产品管理总监Paresh Kharya在同一场媒体发布会上表示:“我们开发了垂直完全集成的系统,以开拓计算机的新外形。” “我们也打开了整个系统,并将它们变成了基本的组成部分。因此,我们的生态系统,整个行业都可以购买,甚至整个都可以买到。”他继续说道,并引用了由合作伙伴云服务提供商和服务器制造商支持的HGX A100设计。
Huang随后补充说:“ Nvidia确实是一家数据中心规模的计算公司。30年前我们曾经是一家PC公司,然后我们成为了工作站公司,然后又成为了服务器公司,最终我们进入了数据中心。但是计算的未来:数据中心是计算单元。计算的未来确实是数据中心规模。应用程序将同时在整个数据中心中运行。”
英伟达还宣布创建DGX A100 Superpod,该产品跨越140个DGX A100系统(1,120个GPU),170个Mellanox Quantum 200G IB交换机,280 TB / s的网络结构(超过15公里的光缆)和4个全闪存联网的petabyes存储。Nvidia表示,整个系统提供了近22 petaflops的峰值双精度性能(700 petaflops的“ AI计算”),并在不到三周的时间内建成。
Nvidia已在其内部超级计算机Saturn-V中添加了四个Superpods,从而将其“ AI超级计算”总容量提高到近5 exaflops,Nvidia称这使Saturn-V成为世界上最快的AI超级计算机。所有这些GPU的总双精度容量达到了约93个峰值petaflops,但Jensen澄清说Saturn-V并不是真正的一个系统。它位于一个管理界面下的四个不同位置。Nvidia将该系统用于与计算机图形学,机器人技术,自动驾驶汽车,医疗保健及其新推荐系统Merlin有关的软件开发。
DGX A100的价格为199,000美元,现已开始发售。第一份订单送给了美国能源部的阿贡国家实验室,该实验室正在使用该集群进行AI和计算,以更好地理解和对抗COVID-19。HPC研究社区的其他早期采用者包括印第安纳大学,朱利希超级计算中心,卡尔斯鲁厄技术学院,马克斯·普朗克计算和数据设施以及美国能源部伯克利国家实验室的NERSC。Huang说:“如果我们是一家数据中心规模的公司,以数据中心规模开发芯片,系统和软件,那是我们应该自己构建它的理由。”
有强大的合作伙伴支持。有望集成A100的云服务提供商和系统构建商的名单包括阿里云,亚马逊网络服务(AWS),Atos,百度云,思科,戴尔技术,富士通,技嘉科技,谷歌云,H3C,惠普企业,浪潮,联想,Microsoft Azure,Oracle,Quanta / QCT,Supermicro和腾讯云。
HGX A100参考设计是DGX A100的骨干,具有四GPU和八GPU配置。四个GPU的HGX A100提供了具有NVLink的GPU之间的完全互连,而八个GPU的版本通过NVSwitch提供了完整的GPU到GPU带宽。w ^ 第i个新的多实例GPU(MIG)架构,安培服务器,因为我们听到黄打电话给他们,可配置为56个小GPU来推理或八个GPU的培训或HPC工作负载一起工作。
-
NVIDIA
+关注
关注
14文章
4989浏览量
103071 -
晶体管
+关注
关注
77文章
9693浏览量
138200 -
Ampere
+关注
关注
1文章
66浏览量
4544
发布评论请先 登录
相关推荐
评论