0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在推理引擎中去除TOPS的顶部

星星科技指导员 来源:嵌入式计算设计 作者:Geoff Tate 2022-12-01 15:53 次阅读

随着 AI 的爆炸式增长,人们开始高度关注能够提供 AI 所需性能的新型专用推理引擎。因此,在过去的六个月里,我们看到了一系列神经推理硬件的发布,所有这些都有望提供比市场上任何其他产品更好的加速。然而,挑战在于没有人真正知道如何从另一个衡量一个。这是一项新技术,像任何新技术一样,我们需要指标,我们需要真正重要的指标。

一切都与吞吐量有关

当推理引擎的性能出现时,供应商会抛出基准测试,引用TOPS(Tera-Operations/second)性能和TOPS/Watt等内容。研究这些数字的系统/芯片设计人员很快意识到这些数字通常毫无意义。真正重要的是推理引擎可以为模型、图像大小、批量大小和过程以及 PVT(过程/电压/温度)条件提供多少吞吐量。这是衡量其性能的第一标准,但令人惊讶的是,很少有供应商提供它。

TOPS最大的问题是,当一家公司说他们的发动机做X TOPS时,他们通常会引用这个而不说明条件是什么。在不知道这些信息的情况下,他们错误地认为X TOPS意味着它可以执行X万亿次操作。实际上,报价 130 TOPS 的公司可能只能提供 27 TOPS 的可用吞吐量。

另一个正在使用但不太常见的基准测试是ResNet-50。这个基准的问题在于,大多数引用它的公司都没有给出批量大小。当他们不提供这一点时,芯片设计人员可以假设这将是一个大批量大小,以最大限度地提高他们的硬件利用率百分比。这使得 ResNet-50 作为基准测试不是很有帮助。相比之下,例如,YOLOv3 需要 100 倍以上的操作来处理 200 万像素的图像。硬件利用率在“现实世界”模型上将面临更大的挑战。

如何正确测量神经推理引擎

在评估神经推理引擎时,有几个关键事项需要考虑。以下是最重要的考虑因素以及它们真正重要的原因。

定义什么是操作:一些供应商将乘法(通常为 INT 8 乘以 INT 8)计为一个运算,将累加(加法,通常为 INT 32)计为一个运算。因此,单个乘法累加等于 2 个运算。但是,一些供应商在其TOPS规范中包含其他类型的操作,因此必须在开始时进行澄清。

询问操作条件是什么:如果供应商在没有提供条件的情况下给出 TOPS,他们通常使用室温、标称电压和典型工艺。通常他们会提到他们指的是哪个工艺节点,但不同供应商的运行速度不同,大多数工艺都提供 2、3 或更高的标称电压。由于性能是频率的函数,而频率是电压的函数,因此芯片设计人员在0.9V下可以获得比0.6V时两倍以上的性能。频率因条件/假设而异。有关此方面的更多信息,请参阅本应用笔记。

查看批量大小:即使供应商提供了最坏情况的TOPS,芯片设计人员也需要弄清楚所有这些操作是否真的有助于计算他们的神经网络模型。实际上,实际利用率可能非常低,因为没有推理引擎始终对所有 MAC 具有 100% 的利用率。这就是为什么批量大小很重要的原因。批处理是为给定层加载权重并同时处理多个数据集。这样做的原因是提高吞吐量,但放弃的是更长的延迟。ResNet-50 有超过 2000 万个权重;YOLOv3 有超过 6000 万个权重;并且必须获取每个权重并将其加载到每个图像的MAC结构中。有太多的权重,无法将它们全部驻留在 MAC 结构中。

查找您的 MAC 利用率:并非所有神经网络的行为都相同。您需要以所需的批大小找出要部署的神经网络模型的神经推理引擎的实际 MAC 利用率。

深入了解 TOPS

如果你是一个正在研究神经推理引擎的设计师,希望这篇文章能阐明要寻找什么。请记住,吞吐量才是最重要的。重要的是不要陷入无意义的基准测试,如TOPS和ResNet-50,除非你知道要问的事情。首先提出以下问题:在批量大小= A和XYZ PVT条件下,特定模型(例如YOLOv3)可以处理多少图像/秒。一旦你开始指定条件和假设,你就会开始了解任何神经推理在现实世界中的表现。归根结底,这才是最重要的。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    455

    文章

    50812

    浏览量

    423585
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100763
  • AI
    AI
    +关注

    关注

    87

    文章

    30887

    浏览量

    269069
收藏 人收藏

    评论

    相关推荐

    芯片湿法刻蚀残留物去除方法

    大家知道芯片是一个要求极其严格的东西,为此我们生产中想尽办法想要让它减少污染,更加彻底去除污染物。那么,今天来说说,大家知道芯片湿法刻蚀残留物到底用什么方法去除的呢? 芯片湿法刻蚀残留物去除方法主要
    的头像 发表于 12-26 11:55 86次阅读

    vLLM项目加入PyTorch生态系统,引领LLM推理新纪元

    。 vLLM项目概述 vLLM的成就与实际应用 支持流行模型 安装与使用vLLM 总结 一,vLLM项目概述 vLLM是一个为大型语言模型(LLMs)设计的高吞吐量、内存高效的推理和服务引擎。该项目最初基于创新的PagedAttention算法构建,如今已经发展成为一个全
    的头像 发表于 12-18 17:06 112次阅读
    vLLM项目加入PyTorch生态系统,引领LLM<b class='flag-5'>推理</b>新纪元

    高效大模型的推理综述

    大模型由于其各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其资源受限场景的部署提出了挑战。业内一直努力开发旨在提高大模型
    的头像 发表于 11-15 11:45 375次阅读
    高效大模型的<b class='flag-5'>推理</b>综述

    AI推理CPU当道,Arm驱动高效引擎

    AI的训练和推理共同铸就了其无与伦比的处理能力。AI训练方面,GPU因其出色的并行计算能力赢得了业界的青睐,成为了当前AI大模型最热门的芯片;而在 AI 推理方面,具备卓越通用性和灵活性的CPU
    的头像 发表于 11-13 14:34 2432次阅读
    AI<b class='flag-5'>推理</b>CPU当道,Arm驱动高效<b class='flag-5'>引擎</b>

    FPGA和ASIC大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的推理做了优化,因此相比GPU这种通过计算平台,功耗更低、
    的头像 发表于 10-29 14:12 441次阅读
    FPGA和ASIC<b class='flag-5'>在</b>大模型<b class='flag-5'>推理</b>加速中的应用

    李开复:中国擅长打造经济实惠的AI推理引擎

    10月22日上午,零一万物公司的创始人兼首席执行官李开复与外媒的交流中透露,其公司旗下的Yi-Lightning(闪电模型)推理成本上已实现了显著优势,比OpenAI的GPT-4o模型低了31倍。他强调,中国擅长打造经济实惠
    的头像 发表于 10-22 16:54 361次阅读

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到广泛关注。历经数月的迭代开发后,澎峰科技重磅发布升级版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的头像 发表于 09-29 10:14 479次阅读
    澎峰科技高性能大模型<b class='flag-5'>推理</b><b class='flag-5'>引擎</b>PerfXLM解析

    超紧凑模块提供高达 39 TOPS AI 算力

    的 XDNA™ NPU 和强大的 Radeon RDNA 3™ 图形处理器,可为AI推理提供高达39 TOPS的惊人算力。      这使得全新conga-TCR8 Type 6模块大批量、
    发表于 09-25 13:46 1312次阅读
     超紧凑模块提供高达 39 <b class='flag-5'>TOPS</b> AI 算力

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨,内容将涵盖模型压缩、解码方法优化、底层优化、分布式并行
    的头像 发表于 07-24 11:38 891次阅读

    深度学习编译器和推理引擎的区别

    深度学习编译器和推理引擎人工智能领域中都扮演着至关重要的角色,但它们各自的功能、应用场景以及优化目标等方面存在显著的差异。以下是对两者区别的详细探讨。
    的头像 发表于 07-17 18:12 1261次阅读

    NPU和AI TOPS是什么?它们有哪些性能?

    可运行AI模型的性能、准确性和效率。如今,TOPS(每秒万亿次运算)是衡量处理器AI性能的主要方式之一。TOPS是基于处理器所需的架构和频率,衡量处理器潜在AI推理峰值性能的方法,比如神经网络处理器(NPU)。下面我们将深入探讨
    的头像 发表于 06-13 10:33 823次阅读

    如何基于OrangePi AIpro开发AI推理应用

    香橙派AIpro开发板采用昇腾AI技术路线,接口丰富且具有强大的可扩展性,提供8/20TOPS澎湃算力,可广泛使用于AI边缘计算、深度视觉学习及视频流AI分析、视频图像分析、自然语言处理等AI领域
    的头像 发表于 06-04 14:23 532次阅读
    如何基于OrangePi AIpro开发AI<b class='flag-5'>推理</b>应用

    输出电压波形顶部失真的原因

    放大电路工作过程中,输出电压波形可能会出现失真,其中顶部失真是一种常见的现象。
    的头像 发表于 04-16 15:30 6670次阅读

    深度探讨VLMs距离视觉演绎推理还有多远?

    通用大型语言模型(LLM)推理基准:研究者们介绍了多种基于文本的推理任务和基准,用于评估LLMs不同领域(如常识、数学推理、常识推理、事实
    发表于 03-19 14:32 362次阅读
    深度探讨VLMs距离视觉演绎<b class='flag-5'>推理</b>还有多远?

    3PCS01G输入电流波形顶部和底部有畸变的情况,请问COMP脚如何做优化?

    3PCS01G 现在输入电流波形顶部和底部有畸变的情况,请问COMP脚如何做优化。
    发表于 01-24 08:02