0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Nvidia推出了Ampere架构,该架构沿袭了前辈Volta的脚步

倩倩 来源:百度粉丝网 2020-09-10 14:59 次阅读

Nvidia的第一款基于Ampere的图形卡A100 GPU在826mm 2 的硅上封装了540亿个晶体管,成为世界上最大的7纳米芯片。今天,在Nvidia首席执行长黄仁勋(Jensen Huang)的预先录制的“厨房主题演讲”中推出了Ampere架构,该架构沿袭了前辈Volta的脚步,一个巨型GPU开启了晶体管,AI专业化和整体性能的表盘。12nm Volta和7nm Ampere均由台积电制造。

加上TensorFloat-32(TF32)张量核心,峰值单精度性能比哥哥的Volta(V100)理论上提高了10-20倍。HPC工作负载受益于峰值双精度浮点性能提高250%,这归功于用于HPC处理的新的符合IEEE的张量核心指令。

其他新功能包括:

•多实例GPU(又称MIG),可将单个A100 GPU划分为多达七个独立的GPU。

•第三代Nvidia NVLink结构,将GPU之间的高速连接性提高了一倍。

•结构稀疏性,它在Tensor核心中引入了对稀疏矩阵运算的支持,并将其加速了两倍。

Ampere将Nvidia的单一通用GPU策略加倍,该策略是由支持HPC,AI和图形的Volta架构引入的。“在[使用Ampere A100]时,无需拥有一堆Volta GPU服务器,一堆T4 GPU服务器和CPU服务器,所有这些现在都可以在一个统一的Ampere服务器上运行,”黄在为昨天的媒体。

Huang补充说:“毫无疑问,这是我们首次将整个数据中心的加速工作负载整合到一个平台中。” “您知道,从视频分析到图像处理再到语音再到训练再到推理的一切,数据处理现在是一台统一服务器。”

Huang在这里指的是今天也推出的新型DGX机器。DGX A100由八个A100 GPU供电,它们一起提供320GB的内存和每秒12.4TB的带宽。六个具有第三代NVLink结构的NVSwitch连接GPU,每秒提供4.8TB的双向带宽。每个DGX 100系统都提供9个Mellanox ConnectX-6 200Gb / s网络接口和15TB Gen4 NVMe存储。

对于第三代“ DGX”,英伟达做出了另一项改变,只有昨天的简报或其他新闻材料没有强调。最新的DGX取代了两个Broadwell Intel Xeon,而是配备了两个64核AMD Epyc Rome CPU。此举可能预示着英伟达(Nvidia)会推迟英特尔正在涌现的GPU业务,或者可能是受AMD的性价比故事激励。

现在还可以选择Arm CPU选项,并且围绕GPU加速的Arm正在进行大量的开发活动,因此看到第四代DGX中的另一次CPU升级也就不足为奇了。Nvidia可以选择Marvell或Ampere(hmm)的Arm服务器芯片,也可以决定采用全孔技术,并将内部开发的Arm CPU添加到其不断增长的堆栈中。

说到Nvidia的堆栈-四年前通过宣布(现已完成)收购Mellanox引入DGX-1,Nvidia避开了系统制造商的称号,意识到与OEM合作伙伴的潜在冲突。这种不情愿似乎已经减少。

Nvdia数据中心和云平台产品管理总监Paresh Kharya在同一场媒体发布会上表示:“我们开发了垂直完全集成的系统,以开拓计算机的新外形。” “我们也打开了整个系统,并将它们变成了基本的组成部分。因此,我们的生态系统,整个行业都可以购买,甚至整个都可以买到。”他继续说道,并引用了由合作伙伴云服务提供商和服务器制造商支持的HGX A100设计。

Huang随后补充说:“ Nvidia确实是一家数据中心规模的计算公司。30年前我们曾经是一家PC公司,然后我们成为了工作站公司,然后又成为了服务器公司,最终我们进入了数据中心。但是计算的未来:数据中心是计算单元。计算的未来确实是数据中心规模。应用程序将同时在整个数据中心中运行。”

英伟达还宣布创建DGX A100 Superpod,该产品跨越140个DGX A100系统(1,120个GPU),170个Mellanox Quantum 200G IB交换机,280 TB / s的网络结构(超过15公里的光缆)和4个全闪存联网的petabyes存储。Nvidia表示,整个系统提供了近22 petaflops的峰值双精度性能(700 petaflops的“ AI计算”),并在不到三周的时间内建成。

Nvidia已在其内部超级计算机Saturn-V中添加了四个Superpods,从而将其“ AI超级计算”总容量提高到近5 exaflops,Nvidia称这使Saturn-V成为世界上最快的AI超级计算机。所有这些GPU的总双精度容量达到了约93个峰值petaflops,但Jensen澄清说Saturn-V并不是真正的一个系统。它位于一个管理界面下的四个不同位置。Nvidia将该系统用于与计算机图形学,机器人技术,自动驾驶汽车,医疗保健及其新推荐系统Merlin有关的软件开发。

DGX A100的价格为199,000美元,现已开始发售。第一份订单送给了美国能源部的阿贡国家实验室,该实验室正在使用该集群进行AI和计算,以更好地理解和对抗COVID-19。HPC研究社区的其他早期采用者包括印第安纳大学,朱利希超级计算中心,卡尔斯鲁厄技术学院,马克斯·普朗克计算和数据设施以及美国能源部伯克利国家实验室的NERSC。Huang说:“如果我们是一家数据中心规模的公司,以数据中心规模开发芯片,系统和软件,那是我们应该自己构建它的理由。”

有强大的合作伙伴支持。有望集成A100的云服务提供商和系统构建商的名单包括阿里云,亚马逊网络服务(AWS),Atos,百度云,思科,戴尔技术,富士通,技嘉科技,谷歌云,H3C,惠普企业,浪潮,联想,Microsoft Azure,Oracle,Quanta / QCT,Supermicro和腾讯云。

HGX A100参考设计是DGX A100的骨干,具有四GPU和八GPU配置。四个GPU的HGX A100提供了具有NVLink的GPU之间的完全互连,而八个GPU的版本通过NVSwitch提供了完整的GPU到GPU带宽。w ^ 第i个新的多实例GPU(MIG)架构,安培服务器,因为我们听到黄打电话给他们,可配置为56个小GPU来推理或八个GPU的培训或HPC工作负载一起工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4989

    浏览量

    103071
  • 晶体管
    +关注

    关注

    77

    文章

    9693

    浏览量

    138200
  • Ampere
    +关注

    关注

    1

    文章

    66

    浏览量

    4544
收藏 人收藏

    评论

    相关推荐

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构,在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈,合并访存机制巧妙解决内存带宽限制。NVIDIA GPU
    发表于 11-24 17:12

    NVIDIA推出企业参考架构,助力打造AI工厂

    全球各地的企业现在可以利用这一全新参考架构来构建高性能、可扩展、安全的数据中心。
    的头像 发表于 11-01 15:35 266次阅读

    架构与设计 常见微服务分层架构的区别和落地实践

    前言 从强调内外隔离的六边形架构,逐渐发展衍生出的层层递进、注重领域模型的洋葱架构,再到和DDD完美契合的整洁架构架构风格的不断演进,其实就是为了适应软件需求越来越复杂的特点。 可以
    的头像 发表于 10-22 15:34 240次阅读
    <b class='flag-5'>架构</b>与设计 常见微服务分层<b class='flag-5'>架构</b>的区别和落地实践

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    、GPU、NPU,给我们剖析算力芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解算力芯片。 全书共11章,由浅入深,较系统全面进行讲解。下面目录对全书内容有一个整体了解
    发表于 10-15 22:08

    嵌入式MXM模块(NVIDIA安培架构)

    电子发烧友网站提供《嵌入式MXM模块(NVIDIA安培架构).pdf》资料免费下载
    发表于 10-09 11:09 0次下载

    英伟达联合计算机制造商发布Blackwell架构系统

    近日,NVIDIA与全球多家知名计算机制造商联手,共同推出了一系列采用NVIDIA Blackwell架构的新系统。这些系统不仅配备
    的头像 发表于 06-06 10:52 645次阅读

    英伟达Blackwell架构,行业首选

    在AI快速发展的当下,NVIDIA作为领军者,近期宣布年度推出新品的策略,由以往的2年一迭代变为如今的1年一升级。他们表示:“我们正处于每年一次的节奏中”。在台北电脑展上,NVIDIA公布
    的头像 发表于 06-05 15:28 646次阅读

    革命性的图形分析: NVIDIA cuGraph 加速的下一代架构

    在我们的 先前的图分析探索 中,我们使用 NVIDIA cuGraph 揭示 GPU-CPU 融合的变革力量。基于这些见解,我们现在引入了一种革命性的新架构,它重新定义图处理的边界
    的头像 发表于 06-04 17:54 7574次阅读
    革命性的图形分析: <b class='flag-5'>NVIDIA</b> cuGraph 加速的下一代<b class='flag-5'>架构</b>

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    2024年3月19日,[英伟达]CEO[黄仁勋]在GTC大会上公布新一代AI芯片架构BLACKWELL,并推出基于架构的超级芯片GB20
    发表于 05-13 17:16

    光庭信息推出了基于S32G+8295+J5新架构的中央域控解决方案

    在智能化浪潮席卷汽车行业的今天,光庭信息作为“软件定义汽车”的引领者,推出了基于S32G+8295+J5新架构的中央域控解决方案。
    的头像 发表于 05-07 14:33 756次阅读

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 625次阅读

    NVIDIA发布两款新的专业显卡RTX A1000、RTX A400

    NVIDIA今天发布两款新的专业显卡RTX A1000、RTX A400,从编号就能看出来定位入门级,而且架构并非最新的Ada Lovelace,还是上一代的Ampere
    的头像 发表于 04-18 11:35 2247次阅读
    <b class='flag-5'>NVIDIA</b>发布两款新的专业显卡RTX A1000、RTX A400

    全新NVIDIA RTX A400和A1000 GPU全面加强AI设计与生产力工作流

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-18 10:29 533次阅读

    交换芯片架构是什么意思 交换芯片架构怎么工作

    交换芯片架构是指交换芯片内部的设计和组织方式,包括其硬件组件、处理单元、内存结构、接口以及其他关键部分的布局和相互作用。交换芯片的架构决定其处理网络数据包的能力和效率。
    的头像 发表于 03-22 16:45 767次阅读

    NVIDIA的Maxwell GPU架构功耗不可思议

    整整10年前的2013年2月19日,NVIDIA正式推出了新一代Maxwell GPU架构,它有着极高的能效,出场方式也非常特别。
    的头像 发表于 02-19 16:39 1027次阅读
    <b class='flag-5'>NVIDIA</b>的Maxwell GPU<b class='flag-5'>架构</b>功耗不可思议