0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Nvidia推出了Ampere架构,该架构沿袭了前辈Volta的脚步

倩倩 来源:百度粉丝网 2020-09-10 14:59 次阅读

Nvidia的第一款基于Ampere的图形卡A100 GPU在826mm 2 的硅上封装了540亿个晶体管,成为世界上最大的7纳米芯片。今天,在Nvidia首席执行长黄仁勋(Jensen Huang)的预先录制的“厨房主题演讲”中推出了Ampere架构,该架构沿袭了前辈Volta的脚步,一个巨型GPU开启了晶体管,AI专业化和整体性能的表盘。12nm Volta和7nm Ampere均由台积电制造。

加上TensorFloat-32(TF32)张量核心,峰值单精度性能比哥哥的Volta(V100)理论上提高了10-20倍。HPC工作负载受益于峰值双精度浮点性能提高250%,这归功于用于HPC处理的新的符合IEEE的张量核心指令。

其他新功能包括:

•多实例GPU(又称MIG),可将单个A100 GPU划分为多达七个独立的GPU。

•第三代Nvidia NVLink结构,将GPU之间的高速连接性提高了一倍。

•结构稀疏性,它在Tensor核心中引入了对稀疏矩阵运算的支持,并将其加速了两倍。

Ampere将Nvidia的单一通用GPU策略加倍,该策略是由支持HPC,AI和图形的Volta架构引入的。“在[使用Ampere A100]时,无需拥有一堆Volta GPU服务器,一堆T4 GPU服务器和CPU服务器,所有这些现在都可以在一个统一的Ampere服务器上运行,”黄在为昨天的媒体。

Huang补充说:“毫无疑问,这是我们首次将整个数据中心的加速工作负载整合到一个平台中。” “您知道,从视频分析到图像处理再到语音再到训练再到推理的一切,数据处理现在是一台统一服务器。”

Huang在这里指的是今天也推出的新型DGX机器。DGX A100由八个A100 GPU供电,它们一起提供320GB的内存和每秒12.4TB的带宽。六个具有第三代NVLink结构的NVSwitch连接GPU,每秒提供4.8TB的双向带宽。每个DGX 100系统都提供9个Mellanox ConnectX-6 200Gb / s网络接口和15TB Gen4 NVMe存储。

对于第三代“ DGX”,英伟达做出了另一项改变,只有昨天的简报或其他新闻材料没有强调。最新的DGX取代了两个Broadwell Intel Xeon,而是配备了两个64核AMD Epyc Rome CPU。此举可能预示着英伟达(Nvidia)会推迟英特尔正在涌现的GPU业务,或者可能是受AMD的性价比故事激励。

现在还可以选择Arm CPU选项,并且围绕GPU加速的Arm正在进行大量的开发活动,因此看到第四代DGX中的另一次CPU升级也就不足为奇了。Nvidia可以选择Marvell或Ampere(hmm)的Arm服务器芯片,也可以决定采用全孔技术,并将内部开发的Arm CPU添加到其不断增长的堆栈中。

说到Nvidia的堆栈-四年前通过宣布(现已完成)收购Mellanox引入DGX-1,Nvidia避开了系统制造商的称号,意识到与OEM合作伙伴的潜在冲突。这种不情愿似乎已经减少。

Nvdia数据中心和云平台产品管理总监Paresh Kharya在同一场媒体发布会上表示:“我们开发了垂直完全集成的系统,以开拓计算机的新外形。” “我们也打开了整个系统,并将它们变成了基本的组成部分。因此,我们的生态系统,整个行业都可以购买,甚至整个都可以买到。”他继续说道,并引用了由合作伙伴云服务提供商和服务器制造商支持的HGX A100设计。

Huang随后补充说:“ Nvidia确实是一家数据中心规模的计算公司。30年前我们曾经是一家PC公司,然后我们成为了工作站公司,然后又成为了服务器公司,最终我们进入了数据中心。但是计算的未来:数据中心是计算单元。计算的未来确实是数据中心规模。应用程序将同时在整个数据中心中运行。”

英伟达还宣布创建DGX A100 Superpod,该产品跨越140个DGX A100系统(1,120个GPU),170个Mellanox Quantum 200G IB交换机,280 TB / s的网络结构(超过15公里的光缆)和4个全闪存联网的petabyes存储。Nvidia表示,整个系统提供了近22 petaflops的峰值双精度性能(700 petaflops的“ AI计算”),并在不到三周的时间内建成。

Nvidia已在其内部超级计算机Saturn-V中添加了四个Superpods,从而将其“ AI超级计算”总容量提高到近5 exaflops,Nvidia称这使Saturn-V成为世界上最快的AI超级计算机。所有这些GPU的总双精度容量达到了约93个峰值petaflops,但Jensen澄清说Saturn-V并不是真正的一个系统。它位于一个管理界面下的四个不同位置。Nvidia将该系统用于与计算机图形学,机器人技术,自动驾驶汽车,医疗保健及其新推荐系统Merlin有关的软件开发。

DGX A100的价格为199,000美元,现已开始发售。第一份订单送给了美国能源部的阿贡国家实验室,该实验室正在使用该集群进行AI和计算,以更好地理解和对抗COVID-19。HPC研究社区的其他早期采用者包括印第安纳大学,朱利希超级计算中心,卡尔斯鲁厄技术学院,马克斯·普朗克计算和数据设施以及美国能源部伯克利国家实验室的NERSC。Huang说:“如果我们是一家数据中心规模的公司,以数据中心规模开发芯片,系统和软件,那是我们应该自己构建它的理由。”

有强大的合作伙伴支持。有望集成A100的云服务提供商和系统构建商的名单包括阿里云,亚马逊网络服务(AWS),Atos,百度云,思科,戴尔技术,富士通,技嘉科技,谷歌云,H3C,惠普企业,浪潮,联想,Microsoft Azure,Oracle,Quanta / QCT,Supermicro和腾讯云。

HGX A100参考设计是DGX A100的骨干,具有四GPU和八GPU配置。四个GPU的HGX A100提供了具有NVLink的GPU之间的完全互连,而八个GPU的版本通过NVSwitch提供了完整的GPU到GPU带宽。w ^ 第i个新的多实例GPU(MIG)架构,安培服务器,因为我们听到黄打电话给他们,可配置为56个小GPU来推理或八个GPU的培训或HPC工作负载一起工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4689

    浏览量

    102120
  • 晶体管
    +关注

    关注

    77

    文章

    9179

    浏览量

    136105
  • Ampere
    +关注

    关注

    1

    文章

    57

    浏览量

    4507
收藏 人收藏

    评论

    相关推荐

    英伟达Blackwell架构,行业首选

    的半导体技术路径图,首度公开了即将面世的下一代芯片——Rubin平台,旨在接替现有的Blackwell。   回顾过往,NVIDIA始终保持着每两年发布一次全新架构的传统,从2020年的Ampere
    的头像 发表于 06-05 15:28 383次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    2024年3月19日,[英伟达]CEO[黄仁勋]在GTC大会上公布新一代AI芯片架构BLACKWELL,并推出基于架构的超级芯片GB20
    发表于 05-13 17:16

    光庭信息推出了基于S32G+8295+J5新架构的中央域控解决方案

    在智能化浪潮席卷汽车行业的今天,光庭信息作为“软件定义汽车”的引领者,推出了基于S32G+8295+J5新架构的中央域控解决方案。
    的头像 发表于 05-07 14:33 391次阅读

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 305次阅读

    全新NVIDIA RTX A400和A1000 GPU全面加强AI设计与生产力工作流

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-18 10:29 248次阅读

    NVIDIA的Maxwell GPU架构功耗不可思议

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架构,它有着极高的能效,出场方式也非常特别。
    的头像 发表于 02-19 16:39 628次阅读
    <b class='flag-5'>NVIDIA</b>的Maxwell GPU<b class='flag-5'>架构</b>功耗不可思议

    NVIDIA GPU的核心架构架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此 NVI
    发表于 11-21 09:40 620次阅读
    <b class='flag-5'>NVIDIA</b> GPU的核心<b class='flag-5'>架构</b>及<b class='flag-5'>架构</b>演进

    对英伟达A100芯片算力服务收费价格上调100%,这家企业的硬气来自哪里?

    半导体芯情了解到,A100是英伟达最新推出的一款高性能计算芯片,采用了全新的Ampere架构Ampere架构
    的头像 发表于 11-14 16:30 809次阅读
    对英伟达A100芯片算力服务收费价格上调100%,这家企业的硬气来自哪里?

    NVIDIA 校招 | 芯片架构团队正在热招!

    认识我们 在 NVIDIA, 我们有这样一个团队 —— TPC Arch ( GPU 核心 TPC 架构 ) 团队,各路大神在这里集结,他们深度剖析 GPU 的性能瓶颈,潜心研究下一代新的算法架构
    的头像 发表于 11-01 20:25 272次阅读

    Ampere推出全新软件迁移工具Ampere Porting Advisor

    当前,开发者对高效的软件迁移解决方案的需求与日俱增。随着计算从传统 x86 架构向 AArch64 架构迁移,尤其是向 Ampere 处理器迁移的势头日益强劲,开发者们正在寻找加速代码库迁移的方法
    的头像 发表于 08-24 10:14 1327次阅读

    从电源架构迁移到ARM的应用说明

    迁移到另一种体系结构的决策所涉及的问题。 本课程假定您熟悉电源架构,并解释相应的和附加的ARM功能。 ARM架构得到了ARM互联社区中大量合作伙伴提供的各种技术、工具和基础设施的支持。 在适当的地方
    发表于 08-22 06:09

    ai芯片技术架构有哪些

    ai芯片技术可以分为不同的体系架构。下面将对ai芯片技术架构做详细介绍。 首先,ai芯片技术架构可以分为显卡、TPU和FPGA三类。显卡是目前ai应用中使用最为广泛的一种芯片。nvidia
    的头像 发表于 08-09 14:28 1181次阅读

    英伟达h800和a100的区别

    架构,而A100使用NVIDIA Ampere架构Ampere架构
    的头像 发表于 08-08 16:05 1.5w次阅读
    英伟达h800和a100的区别

    RetNet架构和Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:训练
    发表于 07-26 10:44 1028次阅读
    RetNet<b class='flag-5'>架构</b>和Transformer<b class='flag-5'>架构</b>对比分析

    NVIDIA Ampere 架构的结构化稀疏功能及其在搜索引擎中的应用

    NVIDIA Ampere 架构的结构化稀疏功能 及其在搜索引擎中的应用 深度学习彻底改变了我们分析、理解和处理数据的方式,而且在各个领域的应用中都取得了巨大的成功,其在计算机视觉、自然语言处理
    的头像 发表于 07-18 17:45 366次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Ampere</b> <b class='flag-5'>架构</b>的结构化稀疏功能及其在搜索引擎中的应用