0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

FPGA运算单元对高算力浮点应用

FPGA设计论坛 来源:未知 2023-03-11 13:05 次阅读


随着机器学习(Machine Learning)领域越来越多地使用现场可编程门阵列(FPGA)来进行推理(inference)加速,而传统FPGA只支持定点运算的瓶颈越发凸显。Achronix为了解决这一大困境,创新地设计了机器学习处理器(MLP)单元,不仅支持浮点的乘加运算,还可以支持对多种定浮点数格式进行拆分。

MLP全称Machine Learning Processing单元,是由一组至多32个乘法器的阵列,以及一个加法树、累加器、还有四舍五入rounding/饱和saturation/归一化normalize功能块。同时还包括2个缓存,分别是一个BRAM72k和LRAM2k,用于独立或结合乘法器使用。MLP支持定点模式和浮点模式。


考虑到运算能耗和准确度的折衷,目前机器学习引擎中最常使用的运算格式是FP16和INT8,而Tensor Flow支持的BF16则是通过降低精度,来获得更大数值空间。

而且这似乎也成为未来的一种趋势。目前已经有不少研究表明,更小位宽的浮点或整型可以在保证正确率的同时,还可以减少大量的计算量。因此,为了顺应这一潮流,MLP还支持将大位宽乘法单元拆分成多个小位宽乘法,包括整数和浮点数。

值得注意的是,这里的bfloat16即Brain Float格式,而block float为块浮点算法,即当应用Block Float16及更低位宽块浮点格式时,指数位宽不变,小数位缩减到了16bit以内,因此浮点加法位宽变小,并且不需要使用浮点乘法单元,而是整数乘法和加法树即可,MLP的架构可以使这些格式下的算力倍增。







精彩推荐



至芯科技12年不忘初心、再度起航3月6日西安中心FPGA工程师就业班开课、线上线下多维教学、欢迎咨询!
FPGA 视频处理中外部SDRAM的作用
英特尔推新款可编程芯片,能否越位AMD
扫码加微信邀请您加入FPGA学习交流群




欢迎加入至芯科技FPGA微信学习交流群,这里有一群优秀的FPGA工程师、学生、老师、这里FPGA技术交流学习氛围浓厚、相互分享、相互帮助、叫上小伙伴一起加入吧!


点个在看你最好看





原文标题:FPGA运算单元对高算力浮点应用

文章出处:【微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1624

    文章

    21597

    浏览量

    601009

原文标题:FPGA运算单元对高算力浮点应用

文章出处:【微信号:gh_9d70b445f494,微信公众号:FPGA设计论坛】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解芯片CPU

    。 █在芯片设计中,芯片拓扑(Topology)结构非常重要。 ●环形(Ring)拓扑方式是一种将多个处理单元连接成环形结构的片上总线技术结构中,每个处理单元都与环上的两个相邻处理
    发表于 10-20 12:03

    芯片 高性能 CPU/GPU/NPU 微架构分析》第1-4章阅读心得——之巅:从基准测试到CPU微架构的深度探索

    浮点单元则专门处理浮点运算,其中加法器和乘法器的设计直接影响了CPU的浮点性能。SIMD(单指令多数据)技术如MMX、SSE、AVX等指
    发表于 10-19 01:21

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 编辑 感谢平台提供的书籍,厚厚的一本,很有分量,感谢作者的倾力付出成书。 本书主要讲芯片CPU
    发表于 10-15 22:08

    请问AURIX TC3xx tricore架构下浮点运算和将浮点数小数点去掉变成整数来计算哪种方式更加节省

    AURIX TC3xx tricore架构下浮点运算和将浮点数小数点去掉变成整数来计算哪种方式更加节省? 比如一个
    发表于 08-26 06:54

    力系列基础篇——与计算机性能:解锁超能力的神秘力量!

    的?要想提高,都有哪些方法?一、的关键因素从的常见计量单位FPOPS(Floatin
    的头像 发表于 07-11 08:04 104次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>与计算机性能:解锁超能力的神秘力量!

    请问esp32 wroom 32u默认开启硬件浮点运算单元了吗?

    请问esp32 wroom 32u 默认开启硬件浮点运算单元了吗?感谢
    发表于 06-21 11:08

    优秀的Verilog/FPGA开源项目-浮点运算器(FPU)介绍

    浮点运算器(英文:floating point unit,简称FPU)是计算机系统的一部分,它是专门用来进行浮点运算的(CPU中也叫ALU)。
    的头像 发表于 04-26 11:27 2686次阅读
    优秀的Verilog/<b class='flag-5'>FPGA</b>开源项目-<b class='flag-5'>浮点</b><b class='flag-5'>运算</b>器(FPU)介绍

    力系列基础篇——101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么?那必须是:
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    verilog语音实现浮点运算

    Verilog可以通过使用IEEE标准的浮点数表示来实现浮点运算。下面是一个基本的Verilog模块示例,展示了如何进行加法、乘法和除法等常见的浮点
    发表于 03-25 21:49

    智能规模超通用,大模型对智能提出高要求

    的缩写,即每秒所能够进行的浮点运算数目(每秒浮点运算量)。   可以分为通用
    的头像 发表于 02-06 00:08 5859次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    深入了解浮点运算—CPU和GPU是如何计算的?

    随着国家大力发展数字经济,的提升和普惠变得越来越重要。在数字化时代,已成为推动科技发展和创新的关键要素。
    的头像 发表于 01-18 18:20 3775次阅读
    深入了解<b class='flag-5'>浮点</b><b class='flag-5'>运算</b>—CPU和GPU<b class='flag-5'>算</b><b class='flag-5'>力</b>是如何计算的?

    stm32f407浮点运算速度

    支持硬件浮点运算单元(FPU),可以提供快速和高效的浮点运算性能。本文将详细介绍 STM32F407 的
    的头像 发表于 01-04 10:58 3151次阅读

    浮点LMS算法的FPGA实现

    运算运算步骤远比定点运算繁琐,运算速度慢且所需硬件资源大大增加,因此基于浮点运算的LMS算法的
    的头像 发表于 12-21 16:40 686次阅读

    到底什么是的作用?

    的字面意思,大家都懂,就是计算能力(Computing Power)。
    的头像 发表于 11-20 09:26 1732次阅读
    到底什么是<b class='flag-5'>算</b><b class='flag-5'>力</b>?<b class='flag-5'>算</b><b class='flag-5'>力</b>的作用?