0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 、 Arm和Intel发布FP8标准化规范作为AI的交换格式

星星科技指导员 来源:NVIDIA 作者:Shar Narasimhan 2022-10-11 11:30 次阅读

人工智能处理需要跨硬件和软件平台的全栈创新,以满足神经网络日益增长的计算需求。提高效率的一个关键领域是使用较低精度的数字格式来提高计算效率,减少内存使用,并优化互连带宽。

为了实现这些好处,业界已经从 32 位精度转换为 16 位,现在甚至是 8 位精度格式。 transformer 网络是人工智能中最重要的创新之一,尤其受益于 8 位浮点精度。我们相信,拥有一种通用的交换格式将使硬件和软件平台的快速发展和互操作性得以提高,从而推动计算。

NVIDIA 、 ArmIntel 联合撰写了一份白皮书 FP8 Formats for Deep Learning ,描述了 8 位浮点( FP8 )规范。它提供了一种通用的格式,通过优化内存使用来加速人工智能的开发,并适用于人工智能训练和推理。此 FP8 规格有两种变体, E5M2 和 E4M3 。

该格式在 NVIDIA 料斗体系结构中本地实现,并在初始测试中显示出出色的结果。它将立即受益于更广泛的生态系统所做的工作,包括 AI 框架,为开发者实现它。

兼容性和灵活性

FP8 通过硬件和软件之间的良好平衡,最大限度地减少了与现有 IEEE 754 浮点格式的偏差,以利用现有实现,加快采用速度,并提高开发人员的生产力。

E5M2 使用五位表示指数,两位表示尾数,是一种截断的 IEEE FP16 格式。在需要更高精度而牺牲某些数值范围的情况下, E4M3 格式进行了一些调整,以扩展用四位指数和三位尾数表示的范围。

新格式节省了额外的计算周期,因为它只使用 8 位。它可以用于人工智能训练和推理,而不需要在精度之间进行任何重铸。此外,通过最小化与现有浮点格式的偏差,它为未来 AI 创新提供了最大的自由度,同时仍坚持当前的惯例。

高精度训练和推理

测试提议的 FP8 格式显示,在广泛的用例、架构和网络中,其精度相当于 16 位精度。变压器、计算机视觉和 GAN 网络的结果都表明, FP8 训练精度与 16 位精度相似,但可以显著提高速度。有关精度研究的更多信息,请参阅 FP8 Formats for Deep Learning 白皮书。

pYYBAGNE42eAKKP8AACCv9ceJTc299.png

图 1.语言模型人工智能培训

在图 1 中,不同的网络使用不同的精度度量( PPL 和 Loss ),如图所示。

pYYBAGNE42eAQ7-PAAAgaylpKC0333.png

图 2.语言模型 AI 推理

在人工智能行业领先的基准 MLPerf Inference v2.1 中, NVIDIA Hopper 利用这种新的 FP8 格式在 BERT 高精度模型上实现了 4.5 倍的加速,在不影响精度的情况下获得了吞吐量。

走向标准化

NVIDIA 、 Arm 和 Intel 以开放、无许可证的格式发布了此规范,以鼓励行业广泛采用。他们还将向 IEEE 提交该提案。

通过采用一种保持准确性的可互换格式,人工智能模型将在所有硬件平台上持续高效地运行,并有助于推动人工智能的发展。

鼓励标准机构和整个行业

关于作者

Shar Narasimhan 是 AI 的高级产品营销经理,专门从事 NVIDIA 的 Tesla 数据中心团队的深度学习培训和 OEM 业务。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    8976

    浏览量

    365366
  • NVIDIA
    +关注

    关注

    14

    文章

    4796

    浏览量

    102475
  • 人工智能
    +关注

    关注

    1787

    文章

    46142

    浏览量

    235608
收藏 人收藏

    评论

    相关推荐

    FP8模型训练中Debug优化思路

    目前,市场上许多公司都积极开展基于 FP8 的大模型训练,以提高计算效率和性能。在此,我们整理并总结了客户及 NVIDIA 技术团队在 FP8 模型训练过程中的 debug 思路和方法,供大家参考。
    的头像 发表于 09-06 14:36 154次阅读
    <b class='flag-5'>FP8</b>模型训练中Debug优化思路

    三星或将加入UALink联盟,推动AI芯片互联标准化

    在全球半导体行业的竞争日益激烈的背景下,韩国科技巨头三星正积极布局新的战略领域。据台湾媒体报道,三星已明确表达了对加入UALink联盟的兴趣,这一联盟旨在推动AI芯片互联的标准化,从而进一步提升三星在代工业务领域的竞争力,更好地满足客户需求。
    的头像 发表于 07-01 09:33 295次阅读

    HPE 携手 NVIDIA 推出 NVIDIA AI Computing by HPE,加速生成式 AI 变革

    NVIDIA AI Computing by HPE”。 作为极具开创性的一站式“交钥匙”私有云人工智能(private-cloud AI)解决方案,
    的头像 发表于 06-21 14:39 236次阅读

    NVIDIA Omniverse 将为全新 OpenPBR 材质模型提供原生支持

      NVIDIA 与 OpenUSD 联盟(AOUSD)早前共同宣布成立 OpenUSD 联盟材质工作组,推动通用场景描述(OpenUSD)格式材质交换标准化
    的头像 发表于 06-14 11:23 446次阅读
    <b class='flag-5'>NVIDIA</b> Omniverse 将为全新 OpenPBR 材质模型提供原生支持

    易华录参编《数据要素流通标准化白皮书(2024)》正式发布

    为加快推动我国数据标准化工作,5月25日,由国家数据局主办、中国电子技术标准化研究院承办的第七届数字中国建设峰会“数据标准化和数据基础设施分论坛-数据标准化专场”成功召开。
    的头像 发表于 05-27 09:45 673次阅读
    易华录参编《数据要素流通<b class='flag-5'>标准化</b>白皮书(2024)》正式<b class='flag-5'>发布</b>

    NVIDIA GPU架构下的FP8训练与推理

    FP8 训练利用 E5M2/E4M3 格式,具备与 FP16 相当的动态范围,适用于反向传播与前向传播。
    的头像 发表于 04-25 10:01 556次阅读
    <b class='flag-5'>NVIDIA</b> GPU架构下的<b class='flag-5'>FP8</b>训练与推理

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    圣何塞 —— GTC —— 太平洋时间 2024 年 3 月 18 日 —— NVIDIA 发布专为大规模 AI 量身订制的全新网络交换机 - X800 系列。  
    发表于 03-19 10:05 265次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>发布</b>全新<b class='flag-5'>交换</b>机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施

    NVIDIA GPU因出口管制措施推迟发布

    据之前所披露的详细数据,英伟达HGX H20虽属与H100和H200同系列,共享英伟达Hopper架构,但拥有高达96GB的HBM3显存及4.0TB/s的显存带宽,计效包括FP8达到296TFLOPS和FP16高达148TFLOPS。其能力仅比当前被誉为“最强者”的
    的头像 发表于 01-03 09:25 579次阅读
    <b class='flag-5'>NVIDIA</b> GPU因出口管制措施推迟<b class='flag-5'>发布</b>

    苏州电科院荣膺中电协“2023电器工业标准化示范企业”称号

    近日,苏州电器科学研究院股份有限公司荣获中国电器工业协会发布的“2023电器工业标准化示范企业”称号。苏州电科院的入选及最终获评,充分体现了公司作为行业头部优势企业,在标准化体系建设和
    的头像 发表于 12-28 16:20 550次阅读
    苏州电科院荣膺中电协“2023电器工业<b class='flag-5'>标准化</b>示范企业”称号

    商汤牵头制定的两项AR国家标准下达,推动行业大规模、规范化应用

    近日,国家标准化管理委员会发布《关于下达2023年第三批推荐性国家标准计划及相关标准外文版计划的通知》。 由 商汤科技牵头起草 的两项AR国家标准
    的头像 发表于 12-27 15:35 529次阅读
    商汤牵头制定的两项AR国家<b class='flag-5'>标准</b>下达,推动行业大规模、<b class='flag-5'>规范化</b>应用

    西门子标准化编程和虚拟调试应用

    西门子标准化编程和虚拟调试应用,西门子标准化编程、仿真与虚拟调试应用培训PPT。
    发表于 11-16 14:58 429次阅读
    西门子<b class='flag-5'>标准化</b>编程和虚拟调试应用

    小场景电源及配套配置标准化规范

    电子发烧友网站提供《小场景电源及配套配置标准化规范.pdf》资料免费下载
    发表于 11-13 14:23 0次下载
    小场景电源及配套配置<b class='flag-5'>标准化</b><b class='flag-5'>规范</b>

    AI简报20231103期】ChatGPT参数揭秘,中文最强开源大模型来了!

    1. 用FP8训练大模型有多香?微软:比BF16快64%,省42%内存 原文: https://mp.weixin.qq.com/s/xLvJXe2FDL8YdByZLHjGMQ 低精度训练是大模型
    的头像 发表于 11-03 19:15 1335次阅读
    【<b class='flag-5'>AI</b>简报20231103期】ChatGPT参数揭秘,中文最强开源大模型来了!

    行业巨头联手推动AI数据格式标准化,微软打造云时代开源应用平台

    大家好,欢迎收看河套IT WALK第119期。 今日的科技新闻聚焦于全球技术巨头的联手创新与开放合作。从行业领袖共同推动AI数据格式标准化,到微软推出面向云时代的开源应用平台Radius,我们看到
    的头像 发表于 10-20 02:05 521次阅读
    行业巨头联手推动<b class='flag-5'>AI</b>数据<b class='flag-5'>格式</b><b class='flag-5'>标准化</b>,微软打造云时代开源应用平台

    PCB设计/ 制造数据交换技术及标准化

     Gerber是事实上的PCB 数据工业标准,仍在广泛应用。从1970 年问世的Gerber 原型到1992年的Gerber 274X ,虽经不断改良,但对于日趋复杂的设计,一些与PCB 加工和组装的相关信息在Ger2ber 格式中仍无法表达或包含,例如PCB 板料类型、
    发表于 10-12 14:59 592次阅读
    PCB设计/ 制造数据<b class='flag-5'>交换</b>技术及<b class='flag-5'>标准化</b>