0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达H100 Transformer引擎加速AI训练 准确而且高达6倍性能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-04-01 09:24 次阅读

在当今计算平台上,大型 AI 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。

随着一些模型(例如大型语言模型)达到数万亿参数,AI、高性能计算和数据分析变得日益复杂。

NVIDIA Hopper 架构从头开始构建,凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载,从而处理日益增长的网络和数据集。

Transformer 引擎是全新 Hopper 架构的一部分,将显著提升 AI 性能和功能,并助力在几天或几小时内训练大型模型。

使用 Transformer 引擎训练 AI 模型

Transformer 模型是当今广泛使用的语言模型(例如 asBERT 和 GPT-3)的支柱。Transformer 模型最初针对自然语言处理用例而开发,但因其通用性,现在逐步应用于计算机视觉、药物研发等领域。

与此同时,模型大小不断呈指数级增长,现在已达到数万亿个参数。由于计算量巨大,训练时间不得不延长到数月,而这样就无法满足业务需求。

Transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式,并整合先进的软件算法,将进一步提升 AI 性能和功能。

AI 训练依赖浮点数,浮点数是小数,例如 3.14。TensorFloat32 (TF32) 浮点格式是随 NVIDIA Ampere 架构而面世的,现已成为 TensorFlow 和 PyTorch 框架中的默认 32 位格式。

大多数 AI 浮点运算采用 16 位“半”精度 (FP16)、32 位“单”精度 (FP32),以及面向专业运算的 64 位“双”精度 (FP64)。Transformer 引擎将运算缩短为 8 位,能以更快的速度训练更大的网络。

与 Hopper 架构中的其他新功能(例如,在节点之间提供直接高速互连的 NVLink Switch 系统)结合使用时,H100 加速服务器集群能够训练庞大网络,而这些网络此前几乎无法以企业所需的速度进行训练。

更深入地研究 Transformer 引擎

Transformer 引擎采用软件和自定义 NVIDIA Hopper Tensor Core 技术,该技术旨在加速训练基于常见 AI 模型构建模块(即 Transformer)构建的模型。这些 Tensor Core 能够应用 FP8 和 FP16 混合精度,以大幅加速 Transformer 模型的 AI 计算。采用 FP8 的 Tensor Core 运算在吞吐量方面是 16 位运算的两倍。

模型面临的挑战是智能管理精度以保持准确性,同时获得更小、更快数值格式所能实现的性能。Transformer 引擎利用定制的、经NVIDIA调优的启发式算法来解决上述挑战,该算法可在 FP8 与 FP16 计算之间动态选择,并自动处理每层中这些精度之间的重新投射和缩放。

b39541ba-b14d-11ec-aa7f-dac502259ad0.png

Transformer Engine 使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型精度的同时实现最佳性能。

与上一代 TF32、FP64、FP16 和 INT8 精度相比,NVIDIA Hopper 架构还将每秒浮点运算次数提高了三倍,从而在第四代 Tensor Core 的基础上实现了进一步提升。Hopper Tensor Core 与 Transformer 引擎和第四代 NVLink 相结合,可使 HPC 和 AI 工作负载的加速实现数量级提升。

加速 Transformer 引擎

AI 领域的大部分前沿工作都围绕 Megatron 530B 等大型语言模型展开。下图显示了近年来模型大小的增长趋势,业界普遍认为这一趋势将持续发展。许多研究人员已经在研究用于自然语言理解和其他应用的超万亿参数模型,这表明对 AI 计算能力的需求有增无减。

b3a976d0-b14d-11ec-aa7f-dac502259ad0.jpg

自然语言理解模型仍在快速增长。

为满足这些持续增长的模型的需求,高算力和大量高速内存缺一不可。NVIDIA H100 Tensor Core GPU 两者兼备,再加上 Transformer 引擎实现的加速,可助力 AI 训练更上一层楼。

通过上述方面的创新,就能够提高吞吐量,将训练时间缩短 9 倍——从 7 天缩短到仅 20 个小时:

b3c3821e-b14d-11ec-aa7f-dac502259ad0.jpg

与上一代相比,NVIDIA H100 Tensor Core GPU 提供 9 倍的训练吞吐量,从而可在合理的时间内训练大型模型。

Transformer 引擎还可用于推理,无需进行任何数据格式转换。以前,INT8 是实现出色推理性能的首选精度。但是,它要求经训练的网络转换为 INT8,这是优化流程的一部分,而 NVIDIA TensorRT 推理优化器可轻松实现这一点。

使用以 FP8 精度训练的模型时,开发者可以完全跳过此转换步骤,并使用相同的精度执行推理操作。与 INT8 格式的网络一样,使用 Transformer 引擎的部署能以更小的内存占用空间运行。

在 Megatron 530B 上,NVIDIA H100 的每 GPU 推理吞吐量比 NVIDIA A100 高 30 倍,响应延迟为 1 秒,这表明它是适用于 AI 部署的上佳平台:

b3d518bc-b14d-11ec-aa7f-dac502259ad0.jpg

对于低延迟应用,Transformer 引擎还可将推理吞吐量提高 30 倍。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268892
  • 英伟达
    +关注

    关注

    22

    文章

    3770

    浏览量

    90990
  • H100
    +关注

    关注

    0

    文章

    31

    浏览量

    287

原文标题:GTC22 | H100 Transformer 引擎大幅加速 AI 训练,在不损失准确性的情况下提供高达 6 倍的性能

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟H100芯片市场降温

    随着英伟新一代AI芯片GB200需求的不断攀升,其上一代明星产品H100芯片却遭遇了市场的冷落。据业内人士透露,搭载H100的服务器通常以
    的头像 发表于 10-28 15:42 511次阅读

    英伟推出归一化Transformer,革命性提升LLM训练速度

    了新的突破。 相较于传统的Transformer架构,nGPT在保持原有精度的同时,直接将大型语言模型(LLM)的训练速度提升了高达20。这一显著的
    的头像 发表于 10-23 11:30 368次阅读

    马斯克自曝训练Grok 3用了10万块NVIDIA H100

    在科技界的前沿阵地上,埃隆·马斯克再次以其前瞻性的视野和大胆的尝试引领着新的风潮。近日,马斯克在社交媒体X上的一则回应,不经意间透露了其即将推出的AI聊天机器人Grok 3背后的惊人秘密——这款被马斯克誉为“非常特别”的AI产品,竟然是通过10万块
    的头像 发表于 07-03 14:16 484次阅读

    只能跑TransformerAI芯片,却号称全球最快?

    电子发烧友网报道(文/周凯扬)近日,一家由哈佛辍学生成立的初创公司Etched,宣布了他们在打造的一款“专用”AI芯片Sohu。据其声称该芯片的速度将是英伟H100的20
    的头像 发表于 07-01 09:03 1373次阅读

    首批1024块H100 GPU,正崴集团将建中国台湾最大AI计算中心

    中国台湾当地正崴集团5月27日宣布,将与日本公司Ubitus共同打造人工智能(AI)计算中心,其中第一期将导入128个机柜,共计1024张英伟H100旗舰计算卡,旨在构建台湾最大的
    的头像 发表于 05-29 10:05 1106次阅读

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    NVIDIA NVLink,支持 FP4 AI 精度。 GB200 NVL72是一款性能卓越的计算平台,采用更快的第二代Transformer引擎和FP8精度,可将大型语言模型的
    发表于 05-13 17:16

    英特尔的最强AI芯片要来了,声称性能完胜英伟H100

    增加了近1.5。 与竞争对手的正面对标也不落下风。英特尔声称Gaudi3已全面超越英伟去年发布的H100芯片:运行
    的头像 发表于 04-11 23:36 464次阅读

    英伟发布超强AI加速卡,性能大幅提升,可支持1.8万亿参数模的训练

    得益于NVIDIA每两年进行一次GPU架构升级以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更为强大,尤其适用于AI相关任务。
    的头像 发表于 03-19 12:04 788次阅读

    英伟H200带宽狂飙

    英伟H200带宽的显著提升主要得益于其强大的硬件配置和先进的技术创新。H200配备了高达141GB的HBM3e显存,与前代产品
    的头像 发表于 03-07 16:44 934次阅读

    英伟H200显卡价格

    英伟H200显卡的具体价格尚未公布。根据上一代H100显卡的价格范围,预计H200的单片价格将超过40000美元。由于新芯片通常定价较高,
    的头像 发表于 03-07 16:09 4816次阅读

    英伟H200和H100的比较

    英伟H200和H100是两款不同的AI芯片,它们各自具有独特的特点和优势。以下是关于这两款芯片的一些比较。
    的头像 发表于 03-07 15:53 4595次阅读

    英伟:预计下一代AI芯片B100短缺,计划扩产并采用新架构

    近期热门的 H100 芯片运期短缩数天后,英伟新型 AI 旗舰芯片 B100搭载全新的 Blackwell,有望使
    的头像 发表于 02-25 09:29 910次阅读

    【机器视觉】欢创播报 | 英伟拿下全球90%的AI芯片市场

    预计最高可能已经达到了90%,创下新高纪录。在目前的人工智能智能加速芯片市场,英伟的A100/H100系列
    的头像 发表于 02-01 11:29 729次阅读

    猛兽财经:2024年继续看好英伟的两个理由

    2023年可以说是英伟达成立近30年以来最好的一年。由于大语言模型带动的训练和推理算力需求的增加,导致市场对英伟AI芯片(
    的头像 发表于 01-11 16:24 918次阅读
    猛兽财经:2024年继续看好<b class='flag-5'>英伟</b><b class='flag-5'>达</b>的两个理由

    AI计算需求激增,英伟H100功耗成挑战

    根据预测,若H100的年利用率保持在61%,那么单台设备每年将耗电3740千瓦小时左右。如果英伟在2023年售出150万块H100,2024年再增加至200万块,那么到2024年底,
    的头像 发表于 12-28 09:29 2405次阅读