0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 、 Arm和Intel发布FP8标准化规范作为AI的交换格式

星星科技指导员 来源:NVIDIA 作者:Shar Narasimhan 2022-10-11 11:30 次阅读

人工智能处理需要跨硬件和软件平台的全栈创新,以满足神经网络日益增长的计算需求。提高效率的一个关键领域是使用较低精度的数字格式来提高计算效率,减少内存使用,并优化互连带宽。

为了实现这些好处,业界已经从 32 位精度转换为 16 位,现在甚至是 8 位精度格式。 transformer 网络是人工智能中最重要的创新之一,尤其受益于 8 位浮点精度。我们相信,拥有一种通用的交换格式将使硬件和软件平台的快速发展和互操作性得以提高,从而推动计算。

NVIDIA 、 ArmIntel 联合撰写了一份白皮书 FP8 Formats for Deep Learning ,描述了 8 位浮点( FP8 )规范。它提供了一种通用的格式,通过优化内存使用来加速人工智能的开发,并适用于人工智能训练和推理。此 FP8 规格有两种变体, E5M2 和 E4M3 。

该格式在 NVIDIA 料斗体系结构中本地实现,并在初始测试中显示出出色的结果。它将立即受益于更广泛的生态系统所做的工作,包括 AI 框架,为开发者实现它。

兼容性和灵活性

FP8 通过硬件和软件之间的良好平衡,最大限度地减少了与现有 IEEE 754 浮点格式的偏差,以利用现有实现,加快采用速度,并提高开发人员的生产力。

E5M2 使用五位表示指数,两位表示尾数,是一种截断的 IEEE FP16 格式。在需要更高精度而牺牲某些数值范围的情况下, E4M3 格式进行了一些调整,以扩展用四位指数和三位尾数表示的范围。

新格式节省了额外的计算周期,因为它只使用 8 位。它可以用于人工智能训练和推理,而不需要在精度之间进行任何重铸。此外,通过最小化与现有浮点格式的偏差,它为未来 AI 创新提供了最大的自由度,同时仍坚持当前的惯例。

高精度训练和推理

测试提议的 FP8 格式显示,在广泛的用例、架构和网络中,其精度相当于 16 位精度。变压器、计算机视觉和 GAN 网络的结果都表明, FP8 训练精度与 16 位精度相似,但可以显著提高速度。有关精度研究的更多信息,请参阅 FP8 Formats for Deep Learning 白皮书。

pYYBAGNE42eAKKP8AACCv9ceJTc299.png

图 1.语言模型人工智能培训

在图 1 中,不同的网络使用不同的精度度量( PPL 和 Loss ),如图所示。

pYYBAGNE42eAQ7-PAAAgaylpKC0333.png

图 2.语言模型 AI 推理

在人工智能行业领先的基准 MLPerf Inference v2.1 中, NVIDIA Hopper 利用这种新的 FP8 格式在 BERT 高精度模型上实现了 4.5 倍的加速,在不影响精度的情况下获得了吞吐量。

走向标准化

NVIDIA 、 Arm 和 Intel 以开放、无许可证的格式发布了此规范,以鼓励行业广泛采用。他们还将向 IEEE 提交该提案。

通过采用一种保持准确性的可互换格式,人工智能模型将在所有硬件平台上持续高效地运行,并有助于推动人工智能的发展。

鼓励标准机构和整个行业

关于作者

Shar Narasimhan 是 AI 的高级产品营销经理,专门从事 NVIDIA 的 Tesla 数据中心团队的深度学习培训和 OEM 业务。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9148

    浏览量

    368448
  • NVIDIA
    +关注

    关注

    14

    文章

    5068

    浏览量

    103462
  • 人工智能
    +关注

    关注

    1793

    文章

    47588

    浏览量

    239465
收藏 人收藏

    相关推荐

    思必驰参与的智能家居团体标准发布

    近日,中国标准化协会发布通知:《智能家居场景工程技术规范》T/CAS 979-2024已起草完成并审查通过,正式准予发布,思必驰为该标准起草
    的头像 发表于 12-31 16:57 530次阅读

    解锁NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,确保您的 NVIDIA GPU 能发挥出卓越的推理性能。
    的头像 发表于 12-17 17:47 238次阅读

    南方智能参编《城市信息模型 数据交换标准格式

    近期,中国城市规划设计研究院(以下简称“中规院”)作为第一起草单位的《城市信息模型 数据交换标准格式》编制组成立暨第一次工作会议在北京顺利召开。
    的头像 发表于 12-09 13:42 187次阅读

    如何使用FP8新技术加速大模型训练

    FP8 的详细介绍可以参考此链接: https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/examples
    的头像 发表于 12-09 11:30 260次阅读

    三星与SK海力士携手推进LPDDR6-PIM产品标准化

    AI)专用低功耗DRAM的标准化,从而更好地适应当前“端侧AI”(on-device AI)的发展趋势。
    的头像 发表于 12-03 10:42 287次阅读

    FP8数据格式在大型模型训练中的应用

    本文主要介绍了 FP8 数据格式在大型模型训练中的应用、挑战及最佳实践,展示了 FP8 在提升训练速度和效率方面的潜力和实际效果。
    的头像 发表于 11-19 14:54 434次阅读
    <b class='flag-5'>FP8</b>数据<b class='flag-5'>格式</b>在大型模型训练中的应用

    TensorRT-LLM低精度推理优化

    本文将分享 TensorRT-LLM 中低精度量化内容,并从精度和速度角度对比 FP8 与 INT8。首先介绍性能,包括速度和精度。其次,介绍量化工具 NVIDIA TensorRT Model
    的头像 发表于 11-19 14:29 375次阅读
    TensorRT-LLM低精度推理优化

    CAN技术的标准化之旅

    国际标准化组织 (ISO)于2024年5月27日发布了文件ISO 11898-1:2024;在此之前,于2024年3月22日,发布了文件ISO 11898-2:2024。自此,CAN (控制器局域网络)技术的所有协议及收发器完全
    的头像 发表于 11-07 11:48 467次阅读

    FP8模型训练中Debug优化思路

    目前,市场上许多公司都积极开展基于 FP8 的大模型训练,以提高计算效率和性能。在此,我们整理并总结了客户及 NVIDIA 技术团队在 FP8 模型训练过程中的 debug 思路和方法,供大家参考。
    的头像 发表于 09-06 14:36 369次阅读
    <b class='flag-5'>FP8</b>模型训练中Debug优化思路

    三星或将加入UALink联盟,推动AI芯片互联标准化

    在全球半导体行业的竞争日益激烈的背景下,韩国科技巨头三星正积极布局新的战略领域。据台湾媒体报道,三星已明确表达了对加入UALink联盟的兴趣,这一联盟旨在推动AI芯片互联的标准化,从而进一步提升三星在代工业务领域的竞争力,更好地满足客户需求。
    的头像 发表于 07-01 09:33 419次阅读

    NVIDIA Omniverse 将为全新 OpenPBR 材质模型提供原生支持

      NVIDIA 与 OpenUSD 联盟(AOUSD)早前共同宣布成立 OpenUSD 联盟材质工作组,推动通用场景描述(OpenUSD)格式材质交换标准化
    的头像 发表于 06-14 11:23 676次阅读
    <b class='flag-5'>NVIDIA</b> Omniverse 将为全新 OpenPBR 材质模型提供原生支持

    态势数据有哪些格式和内容呢

    和内容。 特点:具有良好的可读性和可扩展性,在态势数据交换和共享中较为常见。 JSON: 定义:一种轻量级的数据交换格式,易于阅读和编写,也易于机器解析和生成。 特点:在Web服务和API中,JSON格式被广泛用于传输态势数据。
    的头像 发表于 06-11 16:57 545次阅读

    易华录参编《数据要素流通标准化白皮书(2024)》正式发布

    为加快推动我国数据标准化工作,5月25日,由国家数据局主办、中国电子技术标准化研究院承办的第七届数字中国建设峰会“数据标准化和数据基础设施分论坛-数据标准化专场”成功召开。
    的头像 发表于 05-27 09:45 830次阅读
    易华录参编《数据要素流通<b class='flag-5'>标准化</b>白皮书(2024)》正式<b class='flag-5'>发布</b>

    NVIDIA GPU架构下的FP8训练与推理

    FP8 训练利用 E5M2/E4M3 格式,具备与 FP16 相当的动态范围,适用于反向传播与前向传播。
    的头像 发表于 04-25 10:01 842次阅读
    <b class='flag-5'>NVIDIA</b> GPU架构下的<b class='flag-5'>FP8</b>训练与推理

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    圣何塞 —— GTC —— 太平洋时间 2024 年 3 月 18 日 —— NVIDIA 发布专为大规模 AI 量身订制的全新网络交换机 - X800 系列。  
    发表于 03-19 10:05 389次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>发布</b>全新<b class='flag-5'>交换</b>机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施