NVIDIA 、 Arm和Intel发布FP8标准化规范作为AI的交换格式-电子发烧友网

人工智能处理需要跨硬件和软件平台的全栈创新，以满足神经网络日益增长的计算需求。提高效率的一个关键领域是使用较低精度的数字格式来提高计算效率，减少内存使用，并优化互连带宽。

为了实现这些好处，业界已经从 32 位精度转换为 16 位，现在甚至是 8 位精度格式。 transformer 网络是人工智能中最重要的创新之一，尤其受益于 8 位浮点精度。我们相信，拥有一种通用的交换格式将使硬件和软件平台的快速发展和互操作性得以提高，从而推动计算。

NVIDIA 、 Arm 和 Intel 联合撰写了一份白皮书 FP8 Formats for Deep Learning ，描述了 8 位浮点（ FP8 ）规范。它提供了一种通用的格式，通过优化内存使用来加速人工智能的开发，并适用于人工智能训练和推理。此 FP8 规格有两种变体， E5M2 和 E4M3 。

该格式在 NVIDIA 料斗体系结构中本地实现，并在初始测试中显示出出色的结果。它将立即受益于更广泛的生态系统所做的工作，包括 AI 框架，为开发者实现它。

兼容性和灵活性

FP8 通过硬件和软件之间的良好平衡，最大限度地减少了与现有 IEEE 754 浮点格式的偏差，以利用现有实现，加快采用速度，并提高开发人员的生产力。

E5M2 使用五位表示指数，两位表示尾数，是一种截断的 IEEE FP16 格式。在需要更高精度而牺牲某些数值范围的情况下， E4M3 格式进行了一些调整，以扩展用四位指数和三位尾数表示的范围。

新格式节省了额外的计算周期，因为它只使用 8 位。它可以用于人工智能训练和推理，而不需要在精度之间进行任何重铸。此外，通过最小化与现有浮点格式的偏差，它为未来 AI 创新提供了最大的自由度，同时仍坚持当前的惯例。

高精度训练和推理

测试提议的 FP8 格式显示，在广泛的用例、架构和网络中，其精度相当于 16 位精度。变压器、计算机视觉和 GAN 网络的结果都表明， FP8 训练精度与 16 位精度相似，但可以显著提高速度。有关精度研究的更多信息，请参阅 FP8 Formats for Deep Learning 白皮书。

图 1.语言模型人工智能培训

在图 1 中，不同的网络使用不同的精度度量（ PPL 和 Loss ），如图所示。

图 2.语言模型 AI 推理

在人工智能行业领先的基准 MLPerf Inference v2.1 中， NVIDIA Hopper 利用这种新的 FP8 格式在 BERT 高精度模型上实现了 4.5 倍的加速，在不影响精度的情况下获得了吞吐量。

走向标准化

NVIDIA 、 Arm 和 Intel 以开放、无许可证的格式发布了此规范，以鼓励行业广泛采用。他们还将向 IEEE 提交该提案。

通过采用一种保持准确性的可互换格式，人工智能模型将在所有硬件平台上持续高效地运行，并有助于推动人工智能的发展。

鼓励标准机构和整个行业

关于作者

Shar Narasimhan 是 AI 的高级产品营销经理，专门从事 NVIDIA 的 Tesla 数据中心团队的深度学习培训和 OEM 业务。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ARM

ARM

+关注

关注
134

文章
9186

浏览量
369835
NVIDIA

NVIDIA

+关注

关注
14

文章
5087

浏览量
103949
人工智能

人工智能

+关注

关注
1797

文章
47901

浏览量
240919

智能零部件管理助力中电思仪的标准化管理

。目前，SPM以其独有的四大关键性技术优势获得了合作伙伴的青睐。项目评估表明SPM具有相当大的降本潜力：作为模块化和标准化的落地工具，以及企业提高核心竞争力的有效手段，SPM平均降本潜力高达10%。在未来持续优化后，如果所有

发表于 02-14 14:03

Arm正式发布芯粒系统架构首个公开规范

近期，Arm控股有限公司宣布其芯粒系统架构(CSA)正式推出了首个公开规范。这一举措旨在进一步推动芯粒技术的标准化进程，并有效减少行业碎片化现象，为芯片设计领域注入新的活力。芯粒技术

发表于 02-08 15:19 •257次阅读

Arm发布芯粒系统架构首个公开规范

近日，Arm控股有限公司(纳斯达克股票代码：ARM，以下简称“Arm”)宣布了一项重要进展，其芯粒系统架构(CSA)已正式推出首个公开规范。这一举措标志着芯粒技术

发表于 01-24 14:07 •225次阅读

今日看点丨Arm 发布芯粒系统架构首个公开规范；纳芯微推出车规级D类音频功率放大器

1. Arm 发布芯粒系统架构首个公开规范，加速芯片技术演进 Arm 控股有限公司宣布其芯粒系统架构 (CSA) 正式推出首个公开规范，

发表于 01-24 11:18 •1181次阅读

FP8在大模型训练中的应用

越来越多的技术团队开始使用 FP8 进行大模型训练，这主要因为 FP8 有很多技术优势。比如在新一代的 GPU 上，FP8 相对于 BF16 对矩阵乘算子这样的计算密集型算子，NVIDIA

发表于 01-23 09:39 •335次阅读

思必驰参与的智能家居团体标准发布

近日，中国标准化协会发布通知：《智能家居场景工程技术规范》T/CAS 979-2024已起草完成并审查通过，正式准予发布，思必驰为该标准起草

发表于 12-31 16:57 •597次阅读

解锁NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，确保您的 NVIDIA GPU 能发挥出卓越的推理性能。

发表于 12-17 17:47 •332次阅读

如何使用FP8新技术加速大模型训练

，FP8 的详细介绍可以参考此链接： https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples

发表于 12-09 11:30 •427次阅读

三星与SK海力士携手推进LPDDR6-PIM产品标准化

（AI）专用低功耗DRAM的标准化，从而更好地适应当前“端侧AI”（on-device AI）的发展趋势。

发表于 12-03 10:42 •365次阅读

FP8数据格式在大型模型训练中的应用

本文主要介绍了 FP8 数据格式在大型模型训练中的应用、挑战及最佳实践，展示了 FP8 在提升训练速度和效率方面的潜力和实际效果。

发表于 11-19 14:54 •806次阅读

CAN技术的标准化之旅

国际标准化组织（ISO）于2024年5月27日发布了文件ISO 11898-1：2024；在此之前，于2024年3月22日，发布了文件ISO 11898-2：2024。自此，CAN （控制器局域网络）技术的所有协议及收发器完全

发表于 11-07 11:48 •536次阅读

FP8模型训练中Debug优化思路

目前，市场上许多公司都积极开展基于 FP8 的大模型训练，以提高计算效率和性能。在此，我们整理并总结了客户及 NVIDIA 技术团队在 FP8 模型训练过程中的 debug 思路和方法，供大家参考。

发表于 09-06 14:36 •453次阅读

易华录参编《数据要素流通标准化白皮书（2024）》正式发布

为加快推动我国数据标准化工作，5月25日，由国家数据局主办、中国电子技术标准化研究院承办的第七届数字中国建设峰会“数据标准化和数据基础设施分论坛-数据标准化专场”成功召开。

发表于 05-27 09:45 •873次阅读

NVIDIA GPU架构下的FP8训练与推理

FP8 训练利用 E5M2/E4M3 格式，具备与 FP16 相当的动态范围，适用于反向传播与前向传播。

发表于 04-25 10:01 •1055次阅读

NVIDIA 发布全新交换机，全面优化万亿参数级 GPU 计算和 AI 基础设施

圣何塞 —— GTC —— 太平洋时间 2024 年 3 月 18 日 —— NVIDIA 发布专为大规模 AI 量身订制的全新网络交换机 - X800 系列。

发表于 03-19 10:05 •434次阅读