0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在推理引擎中脱颖而出

星星科技指导员 来源:嵌入式计算设计 作者:Geoff Tate 2022-07-06 14:48 次阅读

随着人工智能的爆炸式增长,人们越来越关注能够提供人工智能所需性能的新型专业推理引擎。因此,在过去六个月中,我们看到了一系列神经推理硬件公告,所有这些都承诺提供比市场上任何其他产品更好的加速。然而,挑战在于没有人真正知道如何衡量一个与另一个。这是一项新技术,就像任何新技术一样,我们需要指标,我们需要真正重要的指标。

一切都与吞吐量有关

当推理引擎的性能出现时,供应商会抛出诸如 TOPS(Tera-Operations/Second)性能和 TOPS/Watt 之类的基准。研究这些的系统/芯片设计人员很快意识到这些数字通常毫无意义。真正重要的是推理引擎可以为模型、图像大小、批量大小和过程以及 PVT(过程/电压/温度)条件提供多少吞吐量。这是衡量其性能表现的第一个衡量标准,但令人惊讶的是,很少有供应商提供它。

TOPS 的最大问题是,当一家公司说他们的引擎执行 X TOPS 时,他们通常会引用这一点而没有说明条件是什么。在不知道这些信息的情况下,他们错误地认为 X TOPS 意味着它可以执行 X 万亿次操作。实际上,报价 130 TOPS 的公司可能仅提供 27 TOPS 的可用吞吐量。

另一个正在使用但不太常用的基准是 ResNet-50。这个基准的问题是大多数引用它的公司都没有给出批量大小。如果他们不这样做,芯片设计人员可以假设这将是一个大批量,以最大限度地提高他们的硬件利用率。这使得 ResNet-50 作为基准不是很有帮助。相比之下,例如 YOLOv3 需要 100 倍以上的操作来处理 2 兆像素的图像。在“真实世界”模型中,硬件利用率将面临更大挑战。

如何正确测量神经推理引擎

在评估神经推理引擎时,需要注意几个关键事项。以下是最重要的考虑因素以及它们为何真正重要的原因。

定义什么是操作:一些供应商将乘法(通常为 INT 8 乘以 INT 8)计为一次操作,将累加(加法,通常为 INT 32)计为一次操作。因此,一次乘法累加等于 2 次操作。但是,一些供应商在其 TOPS 规范中包含其他类型的操作,因此必须在开始时进行澄清。

询问 操作条件是什么: 如果供应商提供 TOPS 而不提供条件,他们通常使用室温、标称电压和典型工艺。通常他们会提到他们所指的工艺节点,但不同供应商的运行速度不同,大多数工艺提供2、3或更多的标称电压。由于性能是频率的函数,而频率是电压的函数,因此芯片设计人员在 0.9V 时可以获得比在 0.6V 时高两倍以上的性能。频率因条件/假设而异。有关这方面的更多信息,请参阅此应用说明。

看看批量大小:即使供应商提供最坏情况的 TOPS,芯片设计人员也需要弄清楚所有这些操作是否真的有助于计算他们的神经网络模型。实际上,实际利用率可能非常低,因为没有推理引擎始终 100% 地使用所有 MAC。这就是批量大小很重要的原因。批处理是为给定层加载权重并同时处理多个数据集。这样做的原因是为了提高吞吐量,但放弃的是更长的延迟。ResNet-50 拥有超过 2000 万个权重;YOLOv3 拥有超过 6000 万个权重;并且必须为每个图像获取每个权重并将其加载到 MAC 结构中。权重太多,无法让它们都驻留在 MAC 结构中。

poYBAGLFMEOAYgAkAAFI6_5PqUw443.png

找出你的 MAC 利用率:并非所有神经网络的行为都相同。您需要以您需要的批量大小找出您想要部署的神经网络模型的神经推理引擎的实际 MAC 利用率。

深入TOPS

如果您是一名正在研究神经推理引擎的设计师,希望这篇文章能够阐明要寻找的内容。请记住——重要的是吞吐量。重要的是不要陷入诸如 TOPS 和 ResNet-50 之类的毫无意义的基准测试中,除非您知道围绕这些问题要问的问题。首先提出以下问题:在批量大小 = A 和 XYZ PVT 条件下,可以为特定模型(例如 YOLOv3)处理多少图像/秒。一旦您开始指定条件和假设,您将开始了解任何神经推理在现实世界中的表现如何。归根结底,这才是最重要的。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    453

    文章

    50374

    浏览量

    421668
  • 神经网络
    +关注

    关注

    42

    文章

    4762

    浏览量

    100522
  • 人工智能
    +关注

    关注

    1791

    文章

    46833

    浏览量

    237483
收藏 人收藏

    评论

    相关推荐

    尼尔森数据背后:Shokz韶音如何在全球运动耳机市场脱颖而出

    全球市场调研机构尼尔森,近日在巴黎马拉松期间发布了Sport2024调研报告。数据表明,68%的消费者在跑步时有听音乐的习惯,而在消费者跑步时最常佩戴的耳机品牌,苹果、韶音等榜上有名。其中,定位
    的头像 发表于 11-18 14:53 100次阅读
    尼尔森数据背后:Shokz韶音如<b class='flag-5'>何在</b>全球运动耳机市场<b class='flag-5'>脱颖而出</b>

    李开复:中国擅长打造经济实惠的AI推理引擎

    10月22日上午,零一万物公司的创始人兼首席执行官李开复在与外媒的交流透露,其公司旗下的Yi-Lightning(闪电模型)在推理成本上已实现了显著优势,比OpenAI的GPT-4o模型低了31倍。他强调,中国擅长打造经济实惠的AI
    的头像 发表于 10-22 16:54 308次阅读

    国产MCU厂商,靠什么从内卷脱颖而出

    导语在当下内卷的大环境下,航顺芯片是如何消除内卷,突破高端的?当前,全球半导体行业正经历寒冬。受经济环境疲软、消费需求减弱、库存调整等因素影响,半导体市场增速显著放缓。在这种背景下,半导体厂商间的竞争日益激烈,价格战已成常态,MCU市场亦不例外。SIA数据显示,中国MCU市场占全球25%左右。尽管市场规模庞大,但国内MCU厂商的产品主要集中在中低端市场,同质
    的头像 发表于 10-22 16:20 245次阅读
    国产MCU厂商,靠什么从内卷<b class='flag-5'>中</b><b class='flag-5'>脱颖而出</b>?

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到广泛关注。在历经数月的迭代开发后,澎峰科技重磅发布升级版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的头像 发表于 09-29 10:14 378次阅读
    澎峰科技高性能大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLM解析

    何在华东电机控制器市场脱颖而出?

    华东电机控制器市场的创新方向,文中参考答案都有了。 前言: 随着工业自动化和智能化进程的加速推进,电机控制器作为驱动系统的核心部件,在推动产业升级转型扮演着至关重要的角色。华东电机控制器市场以其
    的头像 发表于 08-05 10:59 159次阅读
    如<b class='flag-5'>何在</b>华东电机控制器市场<b class='flag-5'>脱颖而出</b>?

    NAS设备铁威马F4-424是如何从市场脱颖而出

    简便又性能卓越的家用NAS,成为了众多家庭面临的难题。今天,我们将聚焦于铁威马F4-424这款NAS设备,探讨它是如何凭借其出色的性能与易用性,在家用NAS市场脱颖而出,成为家庭用户的理想之选。
    的头像 发表于 07-18 17:28 737次阅读

    深度学习编译器和推理引擎的区别

    深度学习编译器和推理引擎在人工智能领域中都扮演着至关重要的角色,但它们各自的功能、应用场景以及优化目标等方面存在显著的差异。以下是对两者区别的详细探讨。
    的头像 发表于 07-17 18:12 1187次阅读

    运动相机为什么会脱颖而出

      01 运动相机为什么会脱颖而出 与传统相机或手机拍摄相比,运动相机具备防水和耐冲击的特性,适合在户外活动中使用。运动相机通常具有的广角镜头、高分辨率和高帧率的功能,可以拍摄的范围更广,画面也更
    的头像 发表于 06-27 16:01 528次阅读
    运动相机为什么会<b class='flag-5'>脱颖而出</b>

    新一代驱动器产品,PI SCALE-iFlex™ XLT如何脱颖而出

    即插即用!作为新一代驱动器产品,看SCALE-iFlex™ XLT如何以其独特的设计和出色的性能,在市场脱颖而出! 在电力电子领域,高效、紧凑且安全的门极驱动器产品设计一直是研发的焦点。随着储能
    的头像 发表于 05-27 14:55 266次阅读
    新一代驱动器产品,PI SCALE-iFlex™ XLT如何<b class='flag-5'>脱颖而出</b>?

    大模型推理显卡选购指南:4090显卡为何成为不二之选

    开发者非常关注的话题。 现在市面上加速卡型号多如牛毛,但说到适用大模型推理的显卡,那4090显卡绝对是现阶段“推理王卡”般的存在。论性能不如H100,论价格不如3090,看似平平无奇的4090显卡为何能在众多竞争者
    的头像 发表于 04-11 11:00 724次阅读
    大模型<b class='flag-5'>推理</b>显卡选购指南:4090显卡为何成为不二之选

    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代脱颖

    飞AI鼠标AM30就是你在AI时代的利器,它凭借其出色的功能和特点,助你在激烈的竞争脱颖而出。 讯飞AI鼠标AM30搭载了星火认知大模型AI,为你提供了多种强大的功能。 PPT制作、问答、写作还是绘画 ,AI都能帮你轻松搞定。你只需要输入相关指令,AI就会立即
    的头像 发表于 03-25 13:37 514次阅读
    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代<b class='flag-5'>脱颖</b>

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    使用 MindSpore Lite 推理引擎进行模型推理的通用开发流程。 基本概念 在进行开发前,请先了解以下概念。 张量 :它与数组和矩阵非常相似,是 MindSpore Lite 网络运算
    发表于 12-14 11:41

    NVG002F语音芯片:低功耗 宽电压工作与可重复烧写脱颖而出

    在芯片日益发展的时期,为满足用户的需求,九芯一款具有颇高竞争力的语音芯片-NVG002F出现在市场上。这款芯片低成本、生产周期短,适合大中小型批量生产以及在2.4V~5.2V宽电压范围内工作的特性,特别是可重复烧写的特点,在语音芯片市场脱颖而出
    的头像 发表于 11-29 15:59 396次阅读

    ADAU1701输入正弦波信号因为过大而出现削波,如何在输出端输出不削波的信号?

    ADAU1701输入正弦波信号因为过大而出现削波(输入端已经削波),如何在输出端输出不削波的信号?
    发表于 11-29 08:18

    澎峰科技发布大模型推理引擎PerfXLLM

    要的巨额开销也引发了相关研究者的关注。如何高效地进行推理,并尽可能地减少成本,从而促进大模型应用的落地成为了目前的关键问题。 于是,澎峰科技研发了一款 大模型推理引擎—PerfXLLM ,并且已经在 高通的 骁龙8Gen2 平台
    的头像 发表于 11-25 15:35 1050次阅读
    澎峰科技发布大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLLM