0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当人工智能引发能源问题,我们该怎么办?应对措施是什么?

YCqV_FPGA_EETre 来源:FPGA开发圈 作者:Quenton Hall 2021-03-17 15:53 次阅读

赛灵思公司工业、视觉、医疗及科学市场 AI 系统架构师

在 “人工智能引发能源问题,我们该怎么办 (一)”中,我们简要介绍了更高层次的问题,这些问题为优化加速器的需求奠定了基础。作为一个尖锐的问题提醒,现在让我们通过一个非常简单的图像分类算法,来看一看与之相关联的计算成本与功耗。

利用 Mark Horowitz 提供的数据点,我们可以考虑图像分类器在不同空间限制下的相对功耗。虽然您会注意到 Mark 的能耗估计是针对 45nm 节点的,但业界专家建议,这些数据点将继续按当前的半导体工艺尺寸进行调整。也就是说,无论工艺尺寸是 45nm 还是 16nm,与 FP32 运算相比,INT8 运算的能量成本仍然低一个数量级。

数据来源:Bill Dally(斯坦福),Cadence 嵌入式神经网络峰会,2017 年 2 月 1 日

功耗可按以下方式进行计算:

功耗 = 能量(J)/运算*运算/s

从这个等式中我们可以看出,只有两种方法能够降低功耗:要么减少执行特定运算所需的功耗,要么减少运算的次数,或者一起减少。

对于我们的图像分类器,我们将选择ResNet50作为一个目标。ResNet 提供了近乎最先进的图像分类性能,同时与众多具有类似性能的可比网络相比,它所需的参数(权重)更少,这便是它的另一大优势。

为了部署 ResNet50,我们每次推断需要大约 77 亿运算的算力。这意味着,对于每一幅我们想要分类的图像,我们将产生 7.7 * 10E9 的“计算成本”。

现在,让我们考虑一个相对高容量的推断应用,在该应用中,我们可能希望每秒对 1000 幅图像进行分类。坚持沿用 Mark 的 45nm 能耗估算,我们得出以下结论:

功耗 = 4pJ + 0.4pJ/运算*7.7B运算/图像 * 1000图像/s

= 33.88W

作为创新的第一维度,我们可以将网络从 FP32 量化到 8 位整数运算。这将功耗降低了一个数量级以上。虽然在训练期间 FP32 的精度有利于反向传输,但它在像素数据的推断时间几乎没有创造价值。大量研究和论文已经表明,在众多应用中,可以分析每一层的权重分布并对该分布进行量化,同时将预量化的预测精度保持在非常合理的范围内。

此外,量化研究还表明,8 位整数值对于像素数据来说是很好的“通用”解决方案,并且对于典型网络的许多内层,可以将其量化到 3-4 位,而在预测精度上损失最小。由 Michaela Blott 领导的赛灵思研究实验室团队多年来一直致力于二进制神经网络 (BNN) 的研究与部署,并取得了一些令人瞩目的成果。(如需了解更多信息,请查看 FINN 和 PYNQ)

如今,我们与DNNDK的重点是将网络推断量化至 INT8。现代赛灵思 FPGA 中的单个 DSP 片可以在单个时钟周期内计算两个 8 位乘法运算,这并非巧合。在 16nm UltraScale+ MPSoC 器件系列中,我们拥有超过 15 种不同的器件变型,从数百个 DSP 片扩展到数千个 DSP 片,同时保持应用和/OS 兼容性。16nm DSP 片的最大 fCLK 峰值为 891MHz。因此,中型 MPSoC 器件是功能强大的计算加速器。

现在,让我们考虑一下从 FP32 迁移到 INT8 的数学含义:

功耗 = 0.2pJ+0.03pJ/运算*7.7B运算/图像*1000图像/s

= 1.771W

Mark 在演讲中,提出了一个解决计算效率问题的方法,那就是使用专门构建的专用加速器。他的观点适用于机器学习推断。

上述分析没有考虑到的是,我们还将看到 FP32 的外部 DDR 流量至少减少四倍。正如您可能预料到的那样,与外部存储器访问相关的功耗成本比内部存储器高得多,这也是事实。如果我们简单地利用 Mark 的数据点,我们会发现访问 DRAM 的能量成本大约是 1.3-2.6nJ,而访问 L1 存储器的能量成本可能是 10-100pJ。看起来,与访问内部存储器(如赛灵思 SoC 中发现的 BlockRAM 和 UltraRAM)的能量成本相比,外部 DRAM 访问的能量成本至少高出一个数量级。

除了量化所提供的优势以外,我们还可以使用网络剪枝技术来减少推断所需的计算工作负载。使用赛灵思Vitis AI 优化器工具,可以将在 ILSCVR2012(ImageNet 1000 类)上训练的图像分类模型的计算工作负载减少 30-40%,精度损失不到 1%。再者,如果我们减少预测类的数量,我们可以进一步增加这些性能提升。现实情况是,大多数现实中的图像分类网络都是在有限数量的类别上进行训练的,这使得超出这种水印的剪枝成为可能。作为参考,我们其中一个经过剪枝的 VGG-SSD 实现方案在四个类别上进行训练,需要 17 个 GOP(与原始网络需要 117 个 GOP 相比),在精度上没有损失!谁说 VGG 没有内存效率?

然而,如果我们简单地假设我们在 ILSCVR2012 上训练我们的分类器,我们发现我们通常可以通过剪枝减少大约 30% 的计算工作负载。考虑到这一点,我们得出以下结论:

功耗 = 0.2pJ+0.03pJ/运算*7.7B运算/图像0.7*1000图像/s

= 1.2397W

将此值与 FP32 推断的原始估计值 33.88W 进行比较。

虽然这种分析没有考虑到多种变量(混合因素),但显然存在一个重要的优化机会。因此,当我们继续寻找遥遥无期的“解决计算饱和的灵丹妙药”时,考虑一下吴恩达断言“AI 是新电能”的背景。我认为他并不是在建议 AI 需要更多的电能,只是想表明 AI 具有极高的价值和巨大的影响力。所以,让我们对 ML 推断保持冷静的头脑。对待机器学习推断应保持冷静思考,既不必贸然跟风,也无需针对高性能推断设计采用液态冷却散热。

在本文的第三篇中,我们还将就专门构建的“高效”神经网络模型的使用,以及如何在赛灵思应用中利用它们来实现更大的效率增益进行讨论。在此之前,请参阅DNNDK SDK 用户指南中的第 7 章,以便您更好地了解自适应硬件(位于边缘和更远位置)可能实现的推断性能水平。
编辑:lyn

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 能源
    +关注

    关注

    3

    文章

    1621

    浏览量

    43459
  • 人工智能
    +关注

    关注

    1791

    文章

    47059

    浏览量

    238046

原文标题:人工智能引发能源问题,我们该怎么办?(二)

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    嵌入式和人工智能究竟是什么关系?

    了数据传输的压力,还提高了系统的响应速度。而在物联网中,嵌入式系统更是一个核心的组成部分。通过将人工智能算法应用于物联网设备,我们可以实现对海量数据的智能分析,从而为各种应用场景提供精准的决策支持
    发表于 11-14 16:39

    盛显科技:投影融合处理器连接出现超时,怎么办?

    了连接尝试的失败。这样的情形无疑会给我们的使用带来诸多不便与困扰。那么您知道投影融合处理器连接出现超时,怎么办吗?下面盛显科技小编为您介绍: 投影融合处理器连接出现超时,可采取以下处理措施
    的头像 发表于 11-06 10:58 149次阅读
    盛显科技:投影融合处理器连接出现超时,<b class='flag-5'>该</b><b class='flag-5'>怎么办</b>?

    盛显科技:投影融合处理器兼容性出现问题,怎么办?

    ,解决这些兼容性问题显得尤为重要。那么您知道投影融合处理器兼容性出现问题,怎么办吗?下面盛显科技小编为您介绍: 投影融合处理器出现兼容性问题时,可以采取以下措施来解决: 一、检查与
    的头像 发表于 10-16 12:11 191次阅读
    盛显科技:投影融合处理器兼容性出现问题,<b class='flag-5'>该</b><b class='flag-5'>怎么办</b>?

    《AI for Science:人工智能驱动科学创新》第6章人AI与能源科学读后感

    和国际合作等多个层面。这些内容让我更加认识到,在推动人工智能能源科学融合的过程中,需要不断探索和创新,以应对各种挑战和机遇。 最后,通过阅读这一章,我深刻感受到人工智能对于
    发表于 10-14 09:27

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响。在
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    深刻认识到人工智能在推动科学进步中的核心价值。它不仅是科技进步的加速器,更是人类智慧拓展的催化剂,引领我们迈向一个更加智慧、高效、可持续的科学研究新时代。
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    和使用技术,无需支付专利费或使用费。这大大降低了人工智能图像处理技术的研发成本,并吸引了大量的开发者、企业和研究机构参与其生态建设。 灵活性则体现在RISC-V可以根据不同的应用场景进行定制和优化,从而
    发表于 09-28 11:00

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    ! 《AI for Science:人工智能驱动科学创新》 这本书便将为读者徐徐展开AI for Science的美丽图景,与大家一起去了解: 人工智能究竟帮科学家做了什么? 人工智能将如何改变
    发表于 09-09 13:54

    盛显科技:投影融合处理器画面出现闪烁或抖动,怎么办?

    采取一系列专业而周密的处理措施来解决问题。那么您知道投影融合处理器画面出现闪烁或抖动,怎么办吗?下面盛显科技科技小编为您介绍: 投影融合处理器画面出现闪烁或抖动,可采取以下措施进行处
    的头像 发表于 08-14 17:00 360次阅读
    盛显科技:投影融合处理器画面出现闪烁或抖动,<b class='flag-5'>该</b><b class='flag-5'>怎么办</b>?

    盛显科技:投影融合处理器出现颜色失真或偏色,怎么办

    我们在使用投影融合处理器的过程中,因种种原因,有时候会遇到出现颜色失真或偏色的情况。此种情况的出现,会对视觉效果、信息传递和设备性能产生负面影响。因此,需要我们及时采取措施解决问题,以确保投影设备的正常运行和良好的展示效果表现。
    的头像 发表于 07-31 17:09 258次阅读
    盛显科技:投影融合处理器出现颜色失真或偏色,<b class='flag-5'>该</b><b class='flag-5'>怎么办</b>?

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性
    发表于 07-29 17:05

    工控主板发生故障怎么办

    工控主板发生故障怎么办?前几天有个客户问了我这个问题,大部分情况下出现的故障并不可怕,主要是用户粗心大意造成的。那今天小编就来讲解一下工控主板一般会出现故障的主要原因及判断方法:
    的头像 发表于 04-11 18:19 862次阅读

    电容负极熔断怎么办

    在现代科技发展的时代,电容器在各个领域都扮演着重要的角色。然而,由于各种原因,电容器的负极可能会发生熔断的情况。那么,电容器的负极熔断时,我们应该怎么办呢?
    的头像 发表于 04-10 14:15 497次阅读
    电容负极熔断<b class='flag-5'>怎么办</b>

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能领域布局
    发表于 02-26 10:17

    风机轴磨损怎么办

    电子发烧友网站提供《风机轴磨损怎么办.docx》资料免费下载
    发表于 01-07 11:04 0次下载