0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习如何满足DNN推理的要求

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-09-14 09:55 次阅读

电子发烧友网报道(文/周凯扬)10年前谷歌作为互联网巨头,就已经嗅到了机器学习的潜力,尤其是在深度神经网络(DNN)模型上。就拿语音识别这样的功能来说,如果要考虑到1亿安卓用户每天和手机对话三分钟这样的高并发情况,单单只靠CPU的话,他们需要将现有数据中心的规模扩大至两倍,才能满足DNN推理的要求。

但扩建数据中心是一个投入极高的工作,于是他们考虑用定制的特定域架构的硬件来减少完成推理任务的总拥有成本,而且又要能运行已经为CPU和GPU开发的应用。谷歌在2014年开启了TPUv1的项目,15个月后,全新的TPU硬件就已经应用到了谷歌的数据中心里,连带架构、编译器、测试和部署都全部更新了一遍。

那时GPU在推理这块的性能也还是超过CPU的,但TPU的出现改变了这个格局。与当时英特尔的Haswell CPU相比,TPUv1的能耗比有了80倍的提升,相较当时的英伟达Tesla K80 GPU,其能耗比也高达它的30倍。

8da5c3c4-33b8-11ed-ba43-dac502259ad0.png

每代TPU的性能指标 / 谷歌

谷歌此举引爆了整个市场,大家发现了还有除了CPU、GPU之外的方案。英特尔察觉后也收购了一系列深度学习DSA芯片公司,比如Nervana、Movidius、Mobileye和Habana。谷歌在云服务上的竞争对手们,阿里巴巴和亚马逊也开始打造自己的推理、训练芯片。能耗比之战下,大家很快也意识到机器学习带来的碳足迹成了下一个急需解决的问题。

碳足迹的反噬

根据去年在IEEE Spectrum上发布的《深度学习受益递减》一文中提到,随着机器学习的发展,到了2025年,最强的深度学习系统在ImageNet数据集中进行物体识别时,错误率最高只有5%。但训练这样一个系统所需要的算力和能耗都是庞大的,更糟糕的是,其排放的二氧化碳将是纽约市一整个月的排放量。

机器学习的碳排放可以被分为两种,一种是运营排放,也就是数据中心在运行机器学习硬件中产生的碳排放;第二种是整个生命周期内的排放,不仅包含运营排放,还包含了各个环节的碳排放,比如芯片制造、数据中心建造等等。考虑到后者涉及更加复杂的研究,所以大部分碳足迹的研究都集中在运营排放上。

至于如何记录碳排放,这也很简单,只需要将训练/推理的时长x处理器数量x每个处理器的平均功耗x PUE x 每千瓦时的二氧化碳排放即可。除了最后一项参数需要从数据中心那获取外,其他的数据基本都是公开,或取决于机器学习研究者自己的选择。

如何减少机器学习的碳足迹图灵奖得主、谷歌杰出工程师David Patterson教授对现有的机器学习的研究和工作提出了以下几点建议。首先,从模型开始着手,机器学习研究者需要继续开发效率更高的模型,比如谷歌去年发布的GLaM通用稀疏语言模型,相较GPT-3,它多出了7倍的参数,在自然语言推理等任务上都要优于GPT-3。但同样重要的是它的能耗和碳足迹指标,根据谷歌公布的数据,与使用V100的GPT-3相比,使用TPUv4的GLaM二氧化碳排放减少了14倍,可见模型对于碳足迹的影响。其次,在发布新模型的时候,他建议也把能耗和碳足迹这样的数据公开,这样有助于促进机器学习模型在质量上的良性竞争。

接着是硬件,他指出我们需要像TPUv4或者A100 GPU等,这类机器学习能效比更高的硬件。其实这一点反倒是最不需要担心的,这几乎是每个初创AI芯片公司都在尝试的做法,即便在峰值上不敌这些硬件,也绝对会在能效比上尽可能做大极致。

8de675fe-33b8-11ed-ba43-dac502259ad0.png

全球大规模数据中心的平均PUE / Uptime Institute

还有就是常见的能效衡量指标PUE,大型机器学习负载往往要在数据中心上运行,而要让数据中心的PUE接近1并不是一件简单的事。根据Uptime Institute的统计,各家厂商旗下最大数据中心的年度PUE为1.57,就连我国工信部印发的《新型数据中心发展三年行动计划(2021-2023)》中提出的最终目标也只是将新建大型数据中心PUE降低至1.3以下。但好在新建的数据中心往往都不会只满足于这个目标,而是往1.1乃至1.06这样的指标推进。

可这个指标并不是一个死数据,随着负载和用量的变动,PUE是在持续波动的,不少数据中心仅仅在建成时发布了能效指标,之后就再未公布过任何数据了。在这块做得最好的也还是谷歌,谷歌每年都会发布年度能效报告,将各个数据中心每个季度的PUE公布出来。

不过仅仅只有极低的PUE只能体现出高能耗比,David Patterson教授认为还必须一并公布每个地区数据中心的清洁能源占比。比如阿里巴巴首次发布的《2022阿里巴巴环境、社会和治理报告》中就提到了2021年,阿里巴巴在中国企业可再生能源购买者中排名第一,2022财年阿里云21.6%的电力来自清洁能源。

在双碳目标的提出下,我国其实已经落实到了机器学习的硬件上,但在软件和碳足迹透明度这方面还有可以改善的空间。机器学习要想做到消耗更低的算力来实现更优的效果,就必须从各个环节做到节能减排。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10816

    浏览量

    210927
  • 神经网络
    +关注

    关注

    42

    文章

    4756

    浏览量

    100445
  • 机器学习
    +关注

    关注

    66

    文章

    8364

    浏览量

    132338

原文标题:机器学习的双碳目标

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习机器
    的头像 发表于 11-15 09:19 132次阅读

    具身智能与机器学习的关系

    (如机器人、虚拟代理等)通过与物理世界或虚拟环境的交互来获得、发展和应用智能的能力。这种智能不仅包括认知和推理能力,还包括感知、运动控制和环境适应能力。具身智能强调智能体的身体和环境在智能发展中的重要性。 2. 机器
    的头像 发表于 10-27 10:33 256次阅读

    深度学习编译器和推理引擎的区别

    深度学习编译器和推理引擎在人工智能领域中都扮演着至关重要的角色,但它们各自的功能、应用场景以及优化目标等方面存在显著的差异。以下是对两者区别的详细探讨。
    的头像 发表于 07-17 18:12 1179次阅读

    电路中贴片电容需满足哪些要求

    [贴片电容]电路中贴片电容需满足哪些要求?贴片电容必要满足两个要求,一个是容量需求,另一个是ESR需求。也就是说一个0.1uF的电容退耦成果大约不如两个0.01uF电容成果好。 而且,
    的头像 发表于 07-10 13:58 249次阅读
    电路中贴片电容需<b class='flag-5'>满足</b>哪些<b class='flag-5'>要求</b>?

    深度神经网络(DNN)架构解析与优化策略

    深度神经网络(Deep Neural Network, DNN)作为机器学习领域中的一种重要技术,以其强大的特征学习能力和非线性建模能力,在多个领域取得了显著成果。
    的头像 发表于 07-09 11:00 1397次阅读

    满足GMSL静电防护要求的方案

    满足GMSL静电防护要求的方案
    的头像 发表于 07-09 08:02 324次阅读
    <b class='flag-5'>满足</b>GMSL静电防护<b class='flag-5'>要求</b>的方案

    BP神经网络属于DNN

    属于。BP神经网络(Backpropagation Neural Network)是一种基于误差反向传播算法的多层前馈神经网络,是深度学习(Deep Learning)领域中非常重要的一种模型。而
    的头像 发表于 07-03 10:18 629次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的数据分析能力。本文将深入
    的头像 发表于 07-02 11:22 527次阅读

    深度学习与传统机器学习的对比

    在人工智能的浪潮中,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1135次阅读

    请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗?

    。 我发现IMAGIMOB 是一个很好的解决方案来满足我的需求,但现在的问题是, PSoC™ Creator 不支持 IMAGIMOB! PSoC™ Creator 可以支持机器学习或 IMAGIMOB 吗?
    发表于 05-20 08:06

    机器学习(ML)推理主要计算之存内计算芯片

    机器学习(ML)应用已经在汽车、医疗保健、金融和技术等各个领域变得无处不在。这导致对高性能、高能效 ML 硬件解决方案的需求不断增加。
    发表于 04-07 10:48 1032次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>(ML)<b class='flag-5'>推理</b>主要计算之存内计算芯片

    基于FPGA进行DNN设计的经验总结

    DNN中应用最广泛的是CNN和RNN,CNN是一种卷积网络,在图片识别分类中用的较多,RNN可以处理时间序列的信息,比如视频识别和语音识别。
    发表于 04-07 10:23 541次阅读
    基于FPGA进行<b class='flag-5'>DNN</b>设计的经验总结

    基于OpenCV DNN实现YOLOv8的模型部署与推理演示

    基于OpenCV DNN实现YOLOv8推理的好处就是一套代码就可以部署在Windows10系统、乌班图系统、Jetson的Jetpack系统
    的头像 发表于 03-01 15:52 1357次阅读
    基于OpenCV <b class='flag-5'>DNN</b>实现YOLOv8的模型部署与<b class='flag-5'>推理</b>演示

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍
    发表于 12-14 11:41

    满足特殊要求的定制化载带设计

    涌现出的新型半导体材料,对载带的设计和工艺制造也提出了更高的要求。普通的矩形口袋的设计已经无法满足现有的芯片承载和保护需求,我们需要设计并开发出更多满足客户需求的特殊口袋。现在我们就以不同的应用需求来介绍相对应的口袋设计。
    的头像 发表于 12-12 17:09 473次阅读
    <b class='flag-5'>满足</b>特殊<b class='flag-5'>要求</b>的定制化载带设计