机器学习推断应用为什么应该考虑专用硬件？-电子发烧友网

2014 年，斯坦福大学教授 Mark Horowitz 发表了一篇题目为“计算的能源问题（以及我们该怎么办）”的论文。这篇具有深远意义的论文，讨论了当前半导体行业所面临的最热门的、与登纳德缩放比例定律（Dennard Scaling ）和摩尔定律（Moore’s Law）失效相关的挑战。

如果可以的话，我想借用并改编一下 Mark 的论文标题，这样我就可以就机器学习推断应用为什么应该考虑专用硬件，分享一下我的一些观点。

专用硬件加速实在必行

首先，让我们考虑一下问题的症结所在。大约在2005 年，处理器内核时钟频率的增长进入了瓶颈。缩小工艺尺寸和降低内核电压不再像以前一样能够为我们带来优势。其根本的问题，就是计算已经达到了功率密度（W/mm2）的极限。

如果我们在同一个裸片上放置更多的内核，我们就可以在相同的功耗预算下增加运算数量，但其前提是我们还还要在一定程度上降低时钟频率，以抵消额外内核所消耗的能量。AMD 和英特尔都是在 2005-2006 年期间发布了他们的首个双核处理器，这并不是巧合。然而，随着我们继续尝试增加内核的数量，我们必须考虑每个运算所消耗的能量和每个运算所需的芯片面积。此外，我们还需要确保我们能够通过 N 来有效地实现并行算法，其中 N 是内核的数量。对于所有的算法来说，这一问题的通用解决方案，或者说“计算饱和的灵丹妙药”仍然是一个难以捉摸的问题，现在最好的解决方法就是应用“自适应硬件”。

事实证明，无论您的处理器设计是使用多核 CPU、GPU 还是 SoC 实现的，在处理器级的总体功耗分布都将大致相同。

所以假若我们估算出以下的情况便较为接近真实情况：

内核 = 30%

内部存储器（L1、L2、L3）= 30%

外部存储器（DDR）= 40%

在上面的分析中，我们没有考虑的是还存在另外一个总体优化的方式，那就是专用硬件加速器优化的实现方式。我们可以对专用硬件进行优化以极高效地执行特定的功能。通常情况下，这种硬件是为了减少外部存储器访问而设计的，其同时减少了时延与功耗。我们可以对专用硬件进行优化，以便给定算法的数据运动部分使用本地化存储器（BlockRAM、UltraRAM）来进行中间结果的存储。

设计高效的加速器是多维度的设计问题：

我们如何实现硬件优化来处理我们的特定算法？（Mark 很好地回答了这一问题，即必须将算法从“所有算法的空间”移动到“受限空间”。）

我们如何保持携带数据的加速器，以确保我们的计算加速器在每个时钟周期都是饱和的？

我们如何最大限度地减少通信开销？

我们如何优化正在处理的运算符的动态范围？

我们如何最大限度地减少外部存储器，甚至是本地存储器的使用？

我们如何消除指令处理管道开销？

我们如何安排操作以确保数据重用，从而使存储器流量最小化，并且使存储器访问相关的运算数量最大化？

自适应硬件的战略优势这里，我们将讨论和评估赛灵思的自适应硬件及 DNNDK 如何应对上述这些尖锐的问题和挑战，特别是当它涉及到机器学习推断时。在进行下一次设计之前，我建议您回顾一下 Mark 有关这个主题的精彩演讲，然后再考虑如何在您的下一次设计中使用自适应硬件来实现您的战略优势。

在这篇文章的第 2 部分中，我们将讨论和评估赛灵思的自适应硬件及 DNNDK （现在已经发布Vitis AI 统一软件平台）如何应对这些挑战，特别是当它涉及到机器学习推断时。

原文标题：人工智能引发能源问题，我们该怎么办？（一）

文章出处：【微信公众号：FPGA开发圈】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30315

浏览量
268570
人工智能

人工智能

+关注

关注
1791

文章
46927

浏览量
237783

原文标题：人工智能引发能源问题，我们该怎么办？(一)

文章出处：【微信号：FPGA-EETrend，微信公众号：FPGA开发圈】欢迎添加关注！文章转载请注明出处。

什么是机器学习？通过机器学习方法能解决哪些问题？

来源：Master编程树“机器学习”最初的研究动机是让计算机系统具有人的学习能力以便实现人工智能。因为没有学习能力的系统很难被认为是具有智能的。目前被广泛采用的

发表于 11-16 01:07 •278次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

NPU与机器学习算法的关系

紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU（Tensor Processing Unit）项目中提出，旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器

发表于 11-15 09:19 •351次阅读

钳位能力与电流和负载具体是什么关系，应该怎么考虑？

记得钱一段时间请教过这个电路，但是一直也没弄明白。我想知道钳位能力与电流和负载具体是什么关系，应该怎么考虑？为什么要用一个强的源？负载重是啥意思，电流消耗大？在实际应用中使用电源芯片，输出端也常被负载拉低，这样说是不是也是钳位能力不行？钳位能力怎么理解呢？求教，或者推荐

发表于 09-23 08:27

AI引擎机器学习阵列指南

AMD Versal AI Core 系列和 Versal AI Edge 系列旨在凭借 AI 引擎机器学习 ( ML ) 架构来提供突破性的 AI 推断加速。这些器件的设计应用范围广泛，包括用于

发表于 09-18 09:16 •338次阅读

AI引擎<b class='flag-5'>机器</b><b class='flag-5'>学习</b>阵列指南

DDR存储器接口的硬件和布局设计考虑因素

电子发烧友网站提供《DDR存储器接口的硬件和布局设计考虑因素.pdf》资料免费下载

发表于 09-11 14:29 •0次下载

【《时间序列与机器学习》阅读体验】+ 了解时间序列

收到《时间序列与机器学习》一书，彩色印刷，公式代码清晰，非常精美。感谢作者，感谢电子发烧友提供了一个让我学习时间序列及应用的机会！前言第一段描述了编写背景：由此可知，这是一本关于时间序列进行大数

发表于 08-11 17:55

神经网络专用硬件实现的方法和技术

神经网络专用硬件实现是人工智能领域的一个重要研究方向，旨在通过设计专门的硬件来加速神经网络的训练和推理过程，提高计算效率和能效比。以下将详细介绍神经网络专用

发表于 07-15 10:47 •996次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的机器学习

发表于 07-02 11:25 •835次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1214次阅读

选择美国vps云主机时应该考虑哪些因素

　美国VPS云主机是指位于美国的虚拟私人服务器，它提供独立的操作系统、内存和CPU资源，用户可以根据自身需求进行配置。那么选择美国vps云主机时应该考虑哪些因素，rak小编为您整理发布选择美国vps云主机时应该

发表于 03-26 09:21 •334次阅读

机器学习8大调参技巧

今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化，需要搜索超参数的最佳配置以实现最佳性能。

发表于 03-23 08:26 •575次阅读

人工智能和机器学习的顶级开发板有哪些？

设备不必再依赖远程服务器或云来洞察传感器数据或用户输入。像TinyML这样的软件框架正在发展成为微控制器专用的机器学习解决方案，而传统的深度学习框架也可以在功能强

发表于 02-29 18:59 •779次阅读

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •925次阅读

GPT推断中的批处理（Batching）效应简析

机器学习模型依赖于批处理（Batching）来提高推断吞吐量，尤其是对于 ResNet 和 DenseNet 等较小的计算机视觉模型。

发表于 12-18 15:52 •682次阅读

电缆选型时应该考虑什么

在电力系统中，电缆选型是至关重要的一环。电缆的选型需要考虑多个因素，包括载流量、电压损失、敷设方式、极限温度和短路热稳定性等。本文将重点探讨载流量和电压损失在电缆选型中的重要性，特别是在长线路敷设的情况下。

发表于 12-04 09:30 •1403次阅读