人工智能处理需要跨硬件和软件平台的全栈创新,以满足神经网络日益增长的计算需求。提高效率的一个关键领域是使用较低精度的数字格式来提高计算效率,减少内存使用,并优化互连带宽。
为了实现这些好处,业界已经从 32 位精度转换为 16 位,现在甚至是 8 位精度格式。 transformer 网络是人工智能中最重要的创新之一,尤其受益于 8 位浮点精度。我们相信,拥有一种通用的交换格式将使硬件和软件平台的快速发展和互操作性得以提高,从而推动计算。
NVIDIA 、 Arm 和 Intel 联合撰写了一份白皮书 FP8 Formats for Deep Learning ,描述了 8 位浮点( FP8 )规范。它提供了一种通用的格式,通过优化内存使用来加速人工智能的开发,并适用于人工智能训练和推理。此 FP8 规格有两种变体, E5M2 和 E4M3 。
该格式在 NVIDIA 料斗体系结构中本地实现,并在初始测试中显示出出色的结果。它将立即受益于更广泛的生态系统所做的工作,包括 AI 框架,为开发者实现它。
兼容性和灵活性
FP8 通过硬件和软件之间的良好平衡,最大限度地减少了与现有 IEEE 754 浮点格式的偏差,以利用现有实现,加快采用速度,并提高开发人员的生产力。
E5M2 使用五位表示指数,两位表示尾数,是一种截断的 IEEE FP16 格式。在需要更高精度而牺牲某些数值范围的情况下, E4M3 格式进行了一些调整,以扩展用四位指数和三位尾数表示的范围。
新格式节省了额外的计算周期,因为它只使用 8 位。它可以用于人工智能训练和推理,而不需要在精度之间进行任何重铸。此外,通过最小化与现有浮点格式的偏差,它为未来 AI 创新提供了最大的自由度,同时仍坚持当前的惯例。
高精度训练和推理
测试提议的 FP8 格式显示,在广泛的用例、架构和网络中,其精度相当于 16 位精度。变压器、计算机视觉和 GAN 网络的结果都表明, FP8 训练精度与 16 位精度相似,但可以显著提高速度。有关精度研究的更多信息,请参阅 FP8 Formats for Deep Learning 白皮书。
图 1.语言模型人工智能培训
在图 1 中,不同的网络使用不同的精度度量( PPL 和 Loss ),如图所示。
图 2.语言模型 AI 推理
在人工智能行业领先的基准 MLPerf Inference v2.1 中, NVIDIA Hopper 利用这种新的 FP8 格式在 BERT 高精度模型上实现了 4.5 倍的加速,在不影响精度的情况下获得了吞吐量。
走向标准化
NVIDIA 、 Arm 和 Intel 以开放、无许可证的格式发布了此规范,以鼓励行业广泛采用。他们还将向 IEEE 提交该提案。
通过采用一种保持准确性的可互换格式,人工智能模型将在所有硬件平台上持续高效地运行,并有助于推动人工智能的发展。
鼓励标准机构和整个行业
关于作者
Shar Narasimhan 是 AI 的高级产品营销经理,专门从事 NVIDIA 的 Tesla 数据中心团队的深度学习培训和 OEM 业务。
审核编辑:郭婷
-
ARM
+关注
关注
134文章
9186浏览量
369835 -
NVIDIA
+关注
关注
14文章
5087浏览量
103949 -
人工智能
+关注
关注
1797文章
47901浏览量
240919
发布评论请先 登录
相关推荐
智能零部件管理助力中电思仪的标准化管理
Arm正式发布芯粒系统架构首个公开规范
Arm发布芯粒系统架构首个公开规范
今日看点丨Arm 发布芯粒系统架构首个公开规范;纳芯微推出车规级D类音频功率放大器
FP8在大模型训练中的应用
![<b class='flag-5'>FP8</b>在大模型训练中的应用](https://file1.elecfans.com/web3/M00/06/F2/wKgZPGeRnmSAAUMeAAAvrz83Fqg235.png)
思必驰参与的智能家居团体标准发布
解锁NVIDIA TensorRT-LLM的卓越性能
如何使用FP8新技术加速大模型训练
三星与SK海力士携手推进LPDDR6-PIM产品标准化
CAN技术的标准化之旅
FP8模型训练中Debug优化思路
![<b class='flag-5'>FP8</b>模型训练中Debug优化思路](https://file1.elecfans.com/web2/M00/05/85/wKgZombaox2AA-QIAACNQpC9OX8898.jpg)
易华录参编《数据要素流通标准化白皮书(2024)》正式发布
![易华录参编《数据要素流通<b class='flag-5'>标准化</b>白皮书(2024)》正式<b class='flag-5'>发布</b>](https://file1.elecfans.com/web2/M00/EA/67/wKgaomZT5hyAaSRUAAAhy05gRIs549.png)
NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施
![<b class='flag-5'>NVIDIA</b> <b class='flag-5'>发布</b>全新<b class='flag-5'>交换</b>机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施](https://file1.elecfans.com/web2/M00/C4/EC/wKgZomX48yOAARKHAAFsIO99Xwk611.png)
评论