0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于NVIDIA H100 GPU的问题解答

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-07-18 10:35 次阅读

NVIDIA 带来知乎精彩问答甄选系列,将为您精选知乎上有关 NVIDIA 产品的精彩问答。

本期为问答甄选第二期 ——探索 H100 的奥秘!

NVIDIA H100 是全球 AI 基础设施的引擎,

让企业能够利用其实现自身 AI 业务的加速。

今年的 GTC22 上 NVIDIA 发布其首款基于 Hopper 架构的 GPU —NVIDIA H100。

该款 GPU 集成了 800 亿个晶体管。H100 是全球范围内最大的性能出众的加速器,拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink 互连技术等突破性功能,可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。

以下三个知乎甄选问答将为您了解NVIDIA H100带来更加精彩的解答!

Q:NVIDIA GTC 2022 大会官宣,Hopper 计算架构要来了,该架构有哪些值得期待的亮点?

A:NVIDIA 宣布推出采用 NVIDIA Hopper架构的新一代加速计算平台。与上一代产品相比,该平台实现了数量级的性能飞跃。这一全新架构以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。

使用 Transformer 引擎训练 AI 模型:

随着一些模型(例如大型语言模型)达到数万亿参数,AI、高性能计算和数据分析变得日益复杂。在当今计算平台上,大型 AI 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。

NVIDIA Hopper 架构从头开始构建,凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载,从而处理日益增长的网络和数据集。Transformer 引擎是全新 Hopper 架构的一部分,将显著提升 AI 性能和功能,并助力在几天或几小时内训练大型模型。

Transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式,并整合先进的软件算法,将进一步提升 AI 性能和功能。

采用全新 DPX 指令将动态编程速度提升 40 倍:

NVIDIA Hopper GPU 架构利用全新 DPX 指令,将动态编程速度提高多达 40 倍。动态编程是一种应用于基因组学、量子计算、路线优化等领域算法中,用以解决问题的技术。

Q:基于 Hopper 架构的 NVIDIA H100 GPU 有什么突破性创新?

A:H100 GPU 为加速大规模 AI 和 HPC 设定了新的标准,带来了六项突破性创新:

先进的芯片—— H100 由 800 亿个晶体管构建而成,这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺,因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度,并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 的 GPU,可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承载相当于全球互联网的流量,使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。

新的 Transformer 引擎—— Transformer 现在已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下,将这些网络的速度提升至上一代的六倍。

第二代安全多实例 GPU—— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例,以处理不同类型的作业。与上一代产品相比,在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置,将 MIG 的部分能力扩展了 7 倍。

机密计算—— H100 是全球首款具有机密计算功能的加速器,可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习,也可以应用于共享云基础设施。

第 4 代 NVIDIA NVLink—— 为加速大型 AI 模型,NVLink 结合全新的外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联网络,最多可以连接多达 256 个 H100 GPU,相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络,带宽高出9倍。

DPX 指令—— 新的 DPX 指令可加速动态规划,适用于包括路径优化和基因组学在内的一系列算法,与 CPU 和上一代 GPU 相比,其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列,前者可以在动态仓库环境中为自主机器人车队寻找最优线路,而后者可用于 DNA 和蛋白质分类与折叠的序列比对。

H100 的多项技术创新相结合,进一步扩大了 NVIDIA在 AI 推理和训练的领导地位,利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,同时满足实时对话式 AI 所需的次秒级延迟。利用 H100,研究人员和开发者能够训练庞大的模型,如包含 3950 亿个参数的混合专家模型,训练速度加速高达9倍,将训练时间从几周缩短到几天。

Q:NVIDIA H100 在 AI 基础架构方面有什么作用?

A:基于 Hopper 架构的 NVIDIA H100,是“全球 AI 基础架构的新引擎”。

语音、对话、客服和推荐系统等 AI 应用正在推动数据中心设计领域的巨大变革。“AI 数据中心需要处理海量且持续的数据,以训练和完善 AI 模型,原始数据进来,经过提炼,然后智能输出——企业正在制造智能并运营大型 AI 工厂。” 这些工厂全天候密集运行,即便是质量上的小幅改进也能大幅增加客户参与和企业利润。

H100 将帮助这些工厂更快发展。这个 “庞大” 的 800 亿晶体管芯片采用了台积电的 4 纳米工艺制造而成。

“Hopper H100 是有史以来最大的一次性能飞跃——其大规模训练性能是 A100 的 9 倍,大型语言模型推理吞吐量是 A100 的 30 倍。”

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4984

    浏览量

    103021
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4735

    浏览量

    128917
  • AI
    AI
    +关注

    关注

    87

    文章

    30823

    浏览量

    268977
  • H100
    +关注

    关注

    0

    文章

    31

    浏览量

    287

原文标题:NVIDIA 知乎精彩问答甄选(二) | 探索 H100 的奥秘!

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    C2000常见问题解答

    电子发烧友网站提供《C2000常见问题解答.pdf》资料免费下载
    发表于 12-06 16:04 0次下载
    C2000常见<b class='flag-5'>问题解答</b>

    电路设计常见问题解答

    电路设计充满挑战,即便是最富经验的工程师也难免遭遇困惑与阻碍。《电路设计常见问题解答》是ADI精心筹备的一份实用指南,力求为您铺设一条清晰的学习与实践之路。
    的头像 发表于 11-05 17:02 432次阅读
    电路设计常见<b class='flag-5'>问题解答</b>

    英伟达H100芯片市场降温

    随着英伟达新一代AI芯片GB200需求的不断攀升,其上一代明星产品H100芯片却遭遇了市场的冷落。据业内人士透露,搭载H100的服务器通常以8卡的形式进行出售或出租,而在去年,这类服务器的售价普遍
    的头像 发表于 10-28 15:42 530次阅读

    BQ2404x、BQ2405x和BQ2409x常见问题解答

    电子发烧友网站提供《BQ2404x、BQ2405x和BQ2409x常见问题解答.pdf》资料免费下载
    发表于 10-14 10:10 0次下载
    BQ2404x、BQ2405x和BQ2409x常见<b class='flag-5'>问题解答</b>

    Keystone EDMA常见问题解答

    电子发烧友网站提供《Keystone EDMA常见问题解答.pdf》资料免费下载
    发表于 10-11 10:43 0次下载
    Keystone EDMA常见<b class='flag-5'>问题解答</b>

    Keystone NDK常见问题解答

    电子发烧友网站提供《Keystone NDK常见问题解答.pdf》资料免费下载
    发表于 10-11 10:41 0次下载
    Keystone NDK常见<b class='flag-5'>问题解答</b>

    TVP51xx产品系列-常见问题解答

    电子发烧友网站提供《TVP51xx产品系列-常见问题解答.pdf》资料免费下载
    发表于 10-08 14:36 0次下载
    TVP51xx产品系列-常见<b class='flag-5'>问题解答</b>

    TFPxxx常见问题解答

    电子发烧友网站提供《TFPxxx常见问题解答.pdf》资料免费下载
    发表于 09-29 09:56 0次下载
    TFPxxx常见<b class='flag-5'>问题解答</b>

    RS-232常见问题解答

    电子发烧友网站提供《RS-232常见问题解答.pdf》资料免费下载
    发表于 09-24 10:55 0次下载
    RS-232常见<b class='flag-5'>问题解答</b>

    MSP MCU上Σ-Δ ADC的常见问题解答

    电子发烧友网站提供《MSP MCU上Σ-Δ ADC的常见问题解答.pdf》资料免费下载
    发表于 09-24 10:53 0次下载
    MSP MCU上Σ-Δ ADC的常见<b class='flag-5'>问题解答</b>

    关于UCC25640x LLC谐振控制器的常见问题解答

    电子发烧友网站提供《关于UCC25640x LLC谐振控制器的常见问题解答.pdf》资料免费下载
    发表于 09-04 09:37 0次下载
    <b class='flag-5'>关于</b>UCC25640x LLC谐振控制器的常见<b class='flag-5'>问题解答</b>

    OMAPL138/C6748 ROM引导加载程序资源和常见问题解答

    电子发烧友网站提供《OMAPL138/C6748 ROM引导加载程序资源和常见问题解答.pdf》资料免费下载
    发表于 09-04 09:31 0次下载
    OMAPL138/C6748 ROM引导加载程序资源和常见<b class='flag-5'>问题解答</b>

    TMP LM 75比较常见问题解答

    电子发烧友网站提供《TMP LM 75比较常见问题解答.pdf》资料免费下载
    发表于 08-30 11:40 0次下载
    TMP LM 75比较常见<b class='flag-5'>问题解答</b>

    英伟达H200和H100的比较

    英伟达H200和H100是两款不同的AI芯片,它们各自具有独特的特点和优势。以下是关于这两款芯片的一些比较。
    的头像 发表于 03-07 15:53 4615次阅读

    H100 GPU供应改善,AI市场需求依旧强劲

    值得注意的是,H100 GPU的供求关系已经缓解,且维护成本高起,部分客户正在置换这类硬件以转向云服务,这种转变在过去的市场紧缩中很少见到。同时,市场上虽然有其他选择如AMD的MI300 GPU,性能稳定且价格低廉。
    的头像 发表于 02-29 16:10 705次阅读