0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种越来越多被应用于加速机器学习应用的浮点格式bfloat16

倩倩 来源:lq 作者:TechEdge科技边界 2019-09-20 10:32 次阅读

Arm早前曾宣布其ArmV8-A架构的下一版本将包括对bfloat16的支持,现在透露了更多细节。

bfloat16是一种越来越多被应用于加速机器学习应用的浮点格式。谷歌、英特尔和不少新创公司都将bfloat16作为其AI加速架构的核心功能之一。

Bfloat16是由Google发明,最初在其第三代Tensor处理单元(TPU)中导入,作为加速机器学习之用。英特尔也认为该格式在未来AI计算中也有庞大的应用潜力,因此整合到其即将推出的“Cooper Lake”Xeon SP处理器,以及“Spring Crest”神经网络处理器中,未来的Xe GPU也会支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新创公司也采用了支持该计算格式的定制AI处理器。

bfloat16的主要想法是提供动态范围与标准IEEE-FP32相同的16位浮点格式,精度较低。相当于将8位的FP32指数字段的大小匹配,并将FP32分数字段的大小缩小到7位。

根据Arm首席架构师和研究员Nigel Stephens的说法,在大多数情况下,bfloat16格式与FP32一样准确,用于神经网络计算,但是以一半的位址就可以完成任务。因此,与32位相比,吞吐量可以翻倍,内存需求可以减半。在多数情况下,blfloat16可以成为这些机器学习算法中FP32的“插入式”替代品。由于神经网络的计算性质,只要数据类型具有足够的范围和精度,就可以很好地适应少量噪声,精准的完成模型训练工作。

Arm将bfloat16的支持被放到ArmV8-A下的所有浮点处理的相关指令集,包含SVE(可扩展矢量扩展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通过相关扩展的支持,加速基于Arm的客户端和服务器的机器学习推理和培训练过程。虽然Arm服务器市占率仍然很小,但其在智能手机等客户端方面拥有几乎绝对的统治地位,这意味着未来的手持式和物联网设备将很快能够利用更紧凑的数字格式来处理机器学习。

当然,Arm如果越强,那么采用自有AI架构的芯片设计业者压力其实也会越大,就好比华为先后使用寒武纪与达芬奇架构,都是封闭的专有架构,高通也是采用DSP结合NPU计算,如果Arm官方架构性能有飞跃性的改进,那么这些采用定制AI架构的芯片设计者可能最终会被迫放弃自己的封闭架构,转而拥抱Arm的开放架构。而这也有助于发展整体AI生态,毕竟使用相同开发环境的硬件基数越大,就能吸引更多应用开发者共同耕耘相关生态。

值得注意的是,Arm决定在SVE中加入bfloat16的支持这点。由于SVE是专门针对高性能计算的矢量指令集,截至目前为止,仅有富士通一家采用,并应用于其A64FX芯片上。Arm方面表示,由于HPC用户对机器学习的兴趣持续增加,过去只能依靠GPU方案来进行加速,若能在单一架构处理完机器学习的工作,那么就不用再额外花费成本添购专用的加速硬件。

使用bfloat16还有另一个好处,那就是它具有与FP32相同的动态范围,这使得转换现有使用FP32的现有计算代码非常简单,可以大规模无痛转换既有的FP32应用到blfloat16数据格式下。

然而,SVE原本就可以针对从128位到2048位等不同的矢量长度来实现计算工作,理论上,bfloat16应该放在128位的Neon计算单元内比较合理。但实际上,数据的吞吐量其实还是要取决于硬件的实现选择,比如说SVE执行单元的数量,以及Neon计算单元的数量。

而随着Arm增加了bfloat16这个数据格式的支持,借以加速AI计算,这也让GPU成为目前主流机器学习加速硬件中唯一不支持这种数据格式的架构,而英特尔即将推出的Xe GPU也会加入该格式的支持,包含AMD或NVIDIA,应该都会在下一代产品中增加此数据格式的支持。

根据ARM做的模拟,不同类型的运算中bfloat16带来的性能提升不等,少的有1.6倍性能,多的可达4倍性能,性能成长相当惊人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9052

    浏览量

    366825
  • 神经网络
    +关注

    关注

    42

    文章

    4764

    浏览量

    100541
  • 机器学习
    +关注

    关注

    66

    文章

    8378

    浏览量

    132412
收藏 人收藏

    评论

    相关推荐

    为何越来越多的应用场景都会用到温湿度控制器?

    、定义 温湿度控制器是一种用于监测和控制环境温度和湿度的设备。  二、工作原理 温湿度控制器通常由传感器、控制器和执行机构组成。传感器用于检测环境中的温度和湿度,并将检测到的信号传输
    的头像 发表于 10-14 14:28 196次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。LLM模型的格式多种多样,以下是
    的头像 发表于 07-09 09:59 546次阅读

    随着户储的发展推进,相关技术要求也越来越多

    户用储能是一种在家庭或住宅环境中使用的储能系统,通常是电池储能系统。它们的主要目的是存储电能以供日常用电或在需要时使用。户用储能系统可以与太阳能光伏电池板或风力发电机等可再生能源系统结合使用
    的头像 发表于 07-05 09:38 299次阅读
    随着户储的发展推进,相关技术要求也<b class='flag-5'>越来越多</b>

    态势数据有哪些格式和内容呢

    和内容。 特点:具有良好的可读性和可扩展性,在态势数据交换和共享中较为常见。 JSON: 定义:一种轻量级的数据交换格式,易于阅读和编写,也易于机器解析和生成。 特点:在Web服务和API中,JSON
    的头像 发表于 06-11 16:57 442次阅读

    采用可调电热微梁的近零刚度MEMS加速度计

    MEMS加速度计正越来越多应用于各种移动和测试设备,以测量运动、冲击和振动。
    的头像 发表于 05-09 09:11 548次阅读
    采用可调电热微梁的近零刚度MEMS<b class='flag-5'>加速</b>度计

    越来越多的领域都用到了USB频谱仪

    科技是不断进步的,越来越多的领域都用到了USB频谱仪。款值得信赖的产品。
    的头像 发表于 05-07 15:28 514次阅读
    <b class='flag-5'>越来越多</b>的领域都用到了USB频谱仪

    随着非车规器件在汽车上泛滥FPGA会不会越来越多的出现在汽车上?

    随着非车规器件在汽车上泛滥FPGA会不会越来越多的出现在汽车上?
    发表于 04-23 14:50

    嵌入式会越来越卷吗?

    嵌入式会越来越卷吗? 当谈及嵌入式系统时,我们探究的不仅是一种科技,更是个日益多元与普及的趋势。嵌入式系统,作为一种融入更大系统中的计算机硬件和软件,旨在执行特定功能或任务。但这个看
    发表于 03-18 16:41

    【量子计算机重构未来 | 阅读体验】+机器学习的终点是量子计算?

    很高兴,有可以有书看了。 对量子计算感兴趣,要从大概10年前说起了,虽然我之前从事的工作跟计算关系不是很直接。 但是,后来随着接触的任何事情越来越多,才发现,原来很多事情都可以交给机器做了。 于是
    发表于 03-10 16:33

    毫米波雷达半精度浮点存储格式分析

    本文介绍了TC3xx单片机雷达信号处理单元SPU支持的半精度浮点格式,将其和32bit整型数格式进行比较,分析了两者的动态范围及实际处理误差,发现半精度浮点
    的头像 发表于 02-20 08:26 344次阅读
    毫米波雷达半精度<b class='flag-5'>浮点</b>存储<b class='flag-5'>格式</b>分析

    为什么越来越多的企业会用到 NTP网络时间服务器

          越来越多的企业使用 NTP网络时间服务器 是为了确保其计算机网络中的所有设备都具有精确的时间。网络 时间服务器 是一种网络设备,它通过从原子钟等准确时间源获取时间信号并向网络中的设备广播
    的头像 发表于 01-23 14:17 339次阅读
    为什么<b class='flag-5'>越来越多</b>的企业会用到 NTP网络时间服务器

    国产网卡为什么受到越来越多的企业青睐了?

    国产网卡同样取得了优异成绩,并已成为众多企业的重要选择。相比于使用进口芯片开发的网卡,国产网卡对本土企业来说可谓独具优势
    的头像 发表于 01-07 10:27 412次阅读

    应用于3D对象检测的点云深度学习方法

    随着激光雷达传感器(“光检测和测距”的缩写,有时称为“激光扫描”,现在在些最新的 iPhone 上可用)或 RGB-D 摄像头(一种 RGB-D 摄像头)的兴起,3D 数据变得越来越广泛。D 图像
    的头像 发表于 01-03 10:32 941次阅读
    两<b class='flag-5'>种</b><b class='flag-5'>应用于</b>3D对象检测的点云深度<b class='flag-5'>学习</b>方法

    一种高速电机旋转转子测温方法

    本文章主要介绍一种应用于高速电机旋转转子温度测量技术。随着新能源汽车的大力普及,作为动力输出的永磁电机应用越来越广泛,电机向着高转速,高能量密度的发现发展,随之而来对电机内部转子温度及其他运行状态的监测也
    的头像 发表于 12-19 10:30 756次阅读
    <b class='flag-5'>一种</b>高速电机旋转转子测温方法

    缝缝补补的浮点数进制转换器

    [浮点数]()在计算机科学中是一种重要的数据类型,用于表示实数。其中,FP32和FP16是两常见的浮点
    的头像 发表于 12-04 14:00 1428次阅读
    缝缝补补的<b class='flag-5'>浮点</b>数进制转换器