0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

推理基准测试的四个阶段

星星科技指导员 来源:Geoff Tate 作者:Geoff Tate 2022-11-29 12:03 次阅读

在过去的十年中,神经网络已经从有趣的研究发展到广泛用于语言翻译、关键词识别和对象识别。

长期以来,神经网络仅限于具有运行神经网络所需的计算资源的数据中心,最初是在微处理器上,然后越来越多地在GPU上,这些GPU具有运行神经网络所需的更多MAC。

英伟达最近宣布,其推理产品的销量首次超过了其培训产品的销量。

随着推理转移到功耗和成本预算受限的边缘(数据中心以外的任何地方),客户正在寻找能够以他们所能承受的价格和功耗提供所需吞吐量的推理加速器。

本博客讨论了如何对推理加速器进行基准测试,以找到最适合您的神经网络的推理加速器;以及客户在学习曲线上通常如何发展他们对基准测试的思考。神经网络推理令人兴奋但很复杂,因此最初非常令人困惑。当客户解决问题时,指示灯会逐步亮起。

首先,让我们回顾一下推理加速器的常见元素及其运行的神经网络。

所有推理加速器的通用元素

所有推理加速器都具有以下共同点:

MAC(很多)

片上静态存储器

片外内存内存

控制逻辑

所有单元之间的片上互连

元素的数量和组织在推理加速器之间差异很大;组织 MAC 的方法;MAC 与 SRAM/DRAM 的比率;数据如何在它们之间流动对于确定加速器的实际加速程度至关重要。

所有神经网络模型的通用元素

所有神经网络都包含以下元素:

数值选择:32 位浮点数(模型训练时使用的),

16 位浮点、16 位整数或 8 位整数

输入数据:图像、音频、文本等

从几十层到几百层,每个层处理前一层的激活,并将输出激活传递到下一层

模型每一层的权重

TOPS - 推理基准测试的第一阶段

刚接触神经网络性能评估的客户几乎总是从问“您的芯片/模块/板有多少 TOPS 开始?因为他们假设 TOPS 和吞吐量相关 - 但他们没有。

TOPS 是每秒万亿次操作的首字母缩写,可用 MAC 的数量(以千为单位)乘以 MAC 运行的频率,以千兆赫兹为单位,乘以 2(一个 MAC = 两个操作)。因此,简单来说,1GHz 的 1K MAC = 2 TOPS。

更多的 MAC 意味着更多的 TOPS。

重要的是内存组织和互连是否可以保持MAC“馈送”,以便它们得到高度利用,从而在模型上产生高吞吐量。

ResNet-50 - 推理基准测试的第二阶段

一旦客户意识到重要的指标是吞吐量,他们通常会继续问:“对于 ResNet-50,您的芯片/模块/电路板的吞吐量(以推理/秒为单位)是多少?

MLPerf最近发布了众多制造商提交的ResNet-50基准测试。

ResNet-50 是一种流行的 CNN(卷积神经网络),用于对图像进行分类,多年来一直广泛用于基准测试。

问题是,没有客户真正使用ResNet-50。

客户询问 ResNet-50 是因为他们认为其型号上的芯片/模块/电路板的吞吐量与 ResNet-50 吞吐量相关。

这个假设的两个主要缺陷是:

ResNet-50 使用 224x224 图像,但大多数客户希望处理大 16+ 倍的百万像素图像。对于 224x224 图像,ResNet-50 可能在芯片/模块/板上运行良好,但对于百万像素图像可能不行,因为较大的图像会比较小的图像对内存子系统施加更大的压力。对于 200 万像素图像,中间激活可以是 64Mb,而对于 224x224 图像,中间激活最多为几兆字节。

批量大小:制造商希望为基准测试引用他们所能引用的最大数字,因此他们的 ResNet-50 基准测试编号通常针对他们可以运行的最大批量大小。但对于边缘应用程序,几乎所有应用程序都需要批量大小 = 1 才能将延迟降至最低。考虑一辆车:如果您正在寻找行人等物体,则需要尽快意识到它们。因此,大批量大小可能会最大化吞吐量,但在边缘需要的是最小延迟,即批量大小为 1。

ResNet-50 对于现实世界的模型来说不是一个糟糕的基准,如果它在批量大小 = 1 的百万像素图像上运行。但它不是通常使用的良好基准。

真实世界模型和图像 - 推理基准测试的第三阶段

客户在学习曲线中达到的下一个阶段是,他们应该找到一个与他们相似的开源神经网络模型:相似类型的模型(CNN或RNN或LSTM),相似的图像大小(或其他输入类型),相似的层数和类似的操作。

例如,对 CNN 感兴趣的客户最常问:“对于 200 万像素(或 1 或 4)的 YOLOv2(或 YOLOv3),您的每秒帧数是多少?

真正有趣的是,尽管大多数客户都想知道YOLOv2 / v3,但几乎没有制造商为其提供基准测试(一个例外是Nvidia Xavier,它将YOLOv3基准为608x608或1/3百万像素)。

YOLOv3 是一个非常紧张的基准测试,是对推理加速器鲁棒性的一个很好的测试:6200 万个权重;100+层;以及 》3000 亿 MAC 来处理单个 200 万像素的图像。对该模型进行基准测试可显示加速器是否可以同时获得高 MAC 利用率、管理存储读/写而不会使 MAC 停止,以及互连是否可以在不停止计算的情况下有效地在内存和 MAC 之间移动数据。

当然,重要的不仅仅是吞吐量,还有实现吞吐量的成本和功率。

售价 2000 美元和 75 瓦的 Nvidia Tesla T4 可能具有您想要的吞吐量,但可能远远超出您的预算。

客户考虑的另一件事是他们计划运行的模型类型的吞吐量效率、吞吐量/$和吞吐量/瓦特

第 4 阶段:对吞吐量、功耗和成本的实际模型进行基准测试

客户对基准推理的学习曲线的最后阶段是使用训练硬件/软件(通常来自 Nvidia 或数据中心)开发自己的模型,然后在可能的目标推理加速器上对该模型进行基准测试。

通过这种方式,客户可以真正分辨出哪个加速器将为他们提供最佳的吞吐效率。

终点似乎很明显,但一切都是事后诸葛亮。神经网络推理非常复杂,所有客户都要经历学习曲线才能得出正确的结论。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4702

    浏览量

    128710
  • 微处理器
    +关注

    关注

    11

    文章

    2247

    浏览量

    82323
收藏 人收藏

    评论

    相关推荐

    Kimi发布新一代数学推理模型k0-math

    、考研以及包含入门竞赛题的MATH等四个数学基准测试中,k0-math初代模型的表现超越了o1-mini和o1-preview模型。而在两难度更高的竞赛级别数学题库OMNI-MATH
    的头像 发表于 11-18 11:38 310次阅读

    总线传输周期包括哪四个阶段

    总线传输周期是计算机系统中数据传输的基本单位,它涉及到多个阶段,以确保数据能够正确、高效地在处理器、内存和其他外设之间传输。一典型的总线传输周期通常包括以下四个阶段: 请求
    的头像 发表于 10-12 09:05 485次阅读

    四个2输入异或门数据表

    电子发烧友网站提供《四个2输入异或门数据表.pdf》资料免费下载
    发表于 05-22 09:58 0次下载
    <b class='flag-5'>四个</b>2输入异或门数据表

    四个2输入正极和栅极数据表

    电子发烧友网站提供《四个2输入正极和栅极数据表.pdf》资料免费下载
    发表于 05-17 10:28 0次下载
    <b class='flag-5'>四个</b>2输入正极和栅极数据表

    四个2输入正极和栅极数据表

    电子发烧友网站提供《四个2输入正极和栅极数据表.pdf》资料免费下载
    发表于 05-16 10:22 0次下载
    <b class='flag-5'>四个</b>2输入正极和栅极数据表

    四个2输入异或门数据表

    电子发烧友网站提供《四个2输入异或门数据表.pdf》资料免费下载
    发表于 05-13 11:04 0次下载
    <b class='flag-5'>四个</b>2输入异或门数据表

    四个2输入正极和栅极数据表

    电子发烧友网站提供《四个2输入正极和栅极数据表.pdf》资料免费下载
    发表于 05-10 10:10 0次下载
    <b class='flag-5'>四个</b>2输入正极和栅极数据表

    半导体发展的四个时代

    代工厂来开发和交付。台积电是这一阶段的关键先驱。 半导体的第四个时代——开放式创新平台 仔细观察,我们即将回到原点。随着半导体行业的不断成熟,工艺复杂性和设计复杂性开始呈爆炸式增长。工艺技术、EDA
    发表于 03-27 16:17

    UL Procyon AI 发布图像生成基准测试,基于Stable Diffusion

    UL去年发布的首个Windows版Procyon AI推理基准测试,以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精
    的头像 发表于 03-25 16:16 837次阅读

    半导体发展的四个时代

    交给代工厂来开发和交付。台积电是这一阶段的关键先驱。 半导体的第四个时代——开放式创新平台 仔细观察,我们即将回到原点。随着半导体行业的不断成熟,工艺复杂性和设计复杂性开始呈爆炸式增长。工艺技术
    发表于 03-13 16:52

    BUCK电路工作原理四个阶段

    BUCK电路工作原理四个阶段  BUCK电路是一种常用的降压转换器,广泛应用于电源管理领域。其工作原理可以分为四个阶段:导通、关断、自阻抗、反馈调节。 1. 导通
    的头像 发表于 01-31 16:08 915次阅读

    四个引脚无源晶振的接线方法

    无源晶振是一种常用的被动元件,用于产生稳定的时钟信号。它通常有四个引脚,分别是VCC、GND、OUT和NC。
    的头像 发表于 01-23 18:15 6175次阅读

    SMT丝印技术的历史发展的四个阶段,你知道吗?

    SMT丝印技术的历史发展的四个阶段,你知道吗?
    的头像 发表于 12-27 10:15 863次阅读

    网卡的四个发展阶段

    ​随着云计算、虚拟化技术的发展,网卡也随之发展,从功能和硬件结构上基本可划分为4阶段
    的头像 发表于 12-19 16:37 1110次阅读
    网卡的<b class='flag-5'>四个</b>发展<b class='flag-5'>阶段</b>

    vlookup函数的四个参数含义

    VLOOKUP函数是一种用于在Excel中查找和提取数据的功能强大的函数。它的四个参数含义分别是:查找值、查找范围、返回列索引和区域或表标志。 首先,让我们来详细了解这四个参数的含义,并讨论如何正确
    的头像 发表于 12-01 09:57 6968次阅读