赛灵思 INT8 优化为使用深度学习推断和传统计算机视觉功能的嵌入式视觉应用提供最优异的性能和能效最出色的计算方法。与其他 FPGA DSP 架构相比,赛灵思的集成 DSP 架构在 INT8 深度学习运算上能实现 1.75 倍的解决方案级性能。
本白皮书探讨将 INT8 运算用于实现在赛灵思 DSP48E2 片上、使用深度学习推断和计算机视觉功能的嵌入式视觉应用,以及这种方案与其他 FPGA 的对比。与占用相同资源数量的其他 FPGA 相比,赛灵思的 DSP 架构对 INT8 乘法累加(MACC) 运算能实现 1.75 倍的峰值解决方案级性能。由于嵌入式视觉应用可以在不牺牲准确性的情况下使用较低位精度,因此需要高效的 INT8 实现方案。
赛灵思的 DSP 架构和库针对 INT8 运算进行了精心优化。本白皮书介绍如何使用赛灵思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同内核权重的同时处理两个并行的 INT8 MACC 运算。本白皮书还阐述了要运用赛灵思这一独特技术,为何输入的最小位宽为 24 位。此外本白皮书还详细介绍了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算术运算使用。另外还提供在深度学习领域或其他计算机视觉处理任务领域如何将这些功能用于嵌入式视觉的实例。
全书目录
用于深度学习和计算机视觉的 INT8
赛灵思 DSP Slice 片上的 INT8 运算
可扩展的 INT8 优化
DSP48E2 SIMD 模式
映射 INT8 优化到深度学习应用
创建 INT8 链接 MACC 的其他方法
映射 INT8 优化到计算机视觉功能
使用可扩展 INT8 优化的定制 2D 卷积
使用 SIMD 运算的中值滤波器
竞争分析
在竞争分析中使用英特尔的 Arria 10 器件与赛灵思的 Zynq UltraScale+ MPSoC 对比。在进行嵌入式视觉应用计算效率比较时,选择的器件有可比的 DSP 密度和器件功耗:
• Arria 10 SoC :SX220、SX270 和 SX480
• Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件
重点比较能用于包括深度学习和计算机视觉在内的众多应用的通用 MACC 性能。
-
嵌入式视觉
+关注
关注
8文章
117浏览量
59190 -
算术运算
+关注
关注
0文章
6浏览量
5711
发布评论请先 登录
相关推荐
用OpenCV和Vivado HLS加速基于Zynq SoC的嵌入式视觉应用开发
Xilinx赛灵思FPGA技术及应用线上公开课
海量干货分享!XDF(赛灵思开发者大会)北京站各分论坛演讲资料公布
赛灵思收购嵌入式Linux方案提供商PetaLogix
赛灵思收购嵌入式Linux方案提供商PetaLogix
赛灵思强化嵌入式视觉应用与工业物联网产品系列
DSP48E2 Slice 上优化 INT8 深度学习运算分析
![DSP48E2 Slice 上<b class='flag-5'>优化</b> <b class='flag-5'>INT8</b> 深度学习运算分析](https://file1.elecfans.com//web2/M00/A6/E7/wKgZomUMQSqAckOrAAAS8h0IznI267.jpg)
Arm携手赛灵思助力嵌入式开发人员获取成熟的Arm IP
赛灵思INT8优化为嵌入式视觉应用提供性能和计算方法
![<b class='flag-5'>赛</b><b class='flag-5'>灵</b><b class='flag-5'>思</b><b class='flag-5'>INT8</b><b class='flag-5'>优化为</b><b class='flag-5'>嵌入式</b><b class='flag-5'>视觉</b>应用提供<b class='flag-5'>性能</b>和<b class='flag-5'>计算方法</b>](https://file.elecfans.com/web1/M00/99/50/pIYBAF0VOcqAGLoFAADuLMUVgco348.jpg)
评论