0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何透过数字直剖本质评估AI芯片的真实性能?

地平线HorizonRobotics 来源:地平线HorizonRobotics 作者:地平线HorizonRobot 2021-05-03 18:11 次阅读

特斯拉 Hardware 3.0 的效率之谜

特斯拉在其推出的 Hardware 3.0 自动驾驶平台中,采用自研芯片替代了Nvidia Drive PX2,其理论算力直线提升了 3 倍,而以 MAPS 方式来评估,其真实 AI 性能更是惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。

那么,Hardware 的效率提升应该如何认识呢?在“算力至上”的今天,如何透过数字直剖本质评估 AI 芯片的真实性能?

算力攀升,为什么却看不到实用性?

随着芯片制程技术的演进,摩尔定律的发展却逐渐进入瓶颈期,这与当下计算 AI 计算需求量爆发式的增长显得格格不入。追求纯算力突破并不可持续,同时算力也并不代表汽车智能芯片“真实性能”,芯片计算效率也同样需要关注。于是,软硬结合、算法加持的 AI 芯片接过了跑赢新场景的接力棒。

当前,行业普遍以“TOPS”为单位来评估AI的理论峰值算力。尽管在目前主流的AI芯片性能基准测试( MLPerf )下很多顶级厂商频繁刷新榜单记录,但在实际场景下的算力有效利用率却差强人意。

2b80db88-9572-11eb-8b86-12bb97331649.png

人们逐渐认识到,AI 芯片理论峰值算力并不一定能在实际运行中完全释放。例如,一款拥有理论峰值算力为 16 TOPS 的芯片,在计算不同模型时甚至会有接近 80% 的差异。此外,在卷积神经网络任务实测中,从 2014 年到 2019 年,最好的神经网络计算效率相差了 100 倍,相当于计算效率每 9 个月翻一倍,远快于每 18 个月翻倍的摩尔定律。因此在模型算法演进速度远快于芯片性能提升的速度的现在,不仅需要算力更高的芯片,也需要更合理的性能评估方法帮助用户选择适合的 AI 芯片。

对这些 AI 时代出现的新变化,以地平线为代表的 AI 芯片企业认为,单纯依赖于 PPA 芯片设计指标,很容易陷入算力至上的“误区”,但算力并不是完全反应芯片性能唯一评估标准。因此,地平线提出了 MAPS(Mean Accuracy-guaranteed Processing Speed)概念和评估方法,以此作为检验 AI 性能的真正标准。通俗来说,就是在特定的 AI 应用领域,看芯片处理 AI 任务的速度和精度,即“多快”和“多准”。

MAPS 动态评估芯片真实 AI 性能

随着 AI 算法的不断演进,几乎每 10-14 个月,相同的计算精度计算量可以下降一半。这种提升与算法设计的精妙程度息息相关,但算法的快速演进也对计算架构提出巨大的挑战,尤其是对传统通用的并行架构而言,例如亟需高效AI专用处理器的自动驾驶场景。

MAPS 其实是在物理算力的基础上,通过对大量模型的测试,综合各个模型的速度(正比与物理算力*实际利用率)和准确率得到的最佳方案的量化结果。它更聚焦于使用户能够通过可视化的图表直观的感知 AI 芯片真实算力。正如对于汽车来说,马力(单位: HP)不如百公里加速时间(单位:秒)更真实反映整车动力性能;算力(单位: TOPS)并不反映汽车智能芯片实际性能,而每秒准确识别帧率 MAPS(单位: FPS)才是更真实的性能指标。

2bb9df64-9572-11eb-8b86-12bb97331649.png

MAPS=最佳模型多边形面积/(精度上界—精度下界),其中横轴反应帧率,纵轴反应精度

此外,在自动驾驶中应该如何对速度和精度做取舍呢?现实生活中我们经常遇到一些极端的案例,例如当汽车遭遇小孩子横穿马路的突发状况时,如果自动驾驶识别延时过高,会刹车不及时;如果精度不够,则会造成无法识别。在很多类似的场景中,我们往往面临既要“快”,又要兼顾“准”的境况。而在 MAPS 评估方法下,我们可以清晰看到帧率和精度之间的动态关系,这也是其对实际场景的重要价值之一。

更高级别自动驾驶需要多少“FPS”?

软件定义的汽车的趋势下,未来汽车正逐步成为四个轮子上的超级计算机。可以清晰预见的是,电动车卖点不是车,而是「智能」,这是一个堪比计算机诞生级别的创新。

特斯拉在 Hardware 3.0 中,采用其自研 AI 芯片 FSD Chip 替代了 Hardware 2.5 中的 Nvidia Drive PX2,算力从 24 TOPS 提升到了 72 TOPS,但运行同样模型的精度却惊人的提升了 21 倍。具体而言,Hardware 2.0 时每秒只能处理 110 帧图像,而现在则高达 2300 帧。除了绝对算力的提升,额外提升则来自于利用率的提升。同时特斯拉也宣布针对 Hardware 3.0 重写自动驾驶软件,从而在 2020 年 10 月推出了 FSD beta,这是唯一不受场地限制、大规模测试的自动驾驶方案。

特斯拉革命性技术的重构与 MAPS背后体现的理念有相通之处:提升物理算力(HW 3.0 提升 3 倍)、提升利用率(提升近 2 倍),找到最佳的速度和准确率提升(重写自动驾驶软件),使得特斯拉从简单场景的 NOA 一步步突破到不受限的自动驾驶。而地平线在芯片设计之中一直贯彻 MAPS 背后的技术理念,关注提升物理算力的同时关注利用率的提升,并且不断把算法发展趋势,使得软硬件可以协同共振,发挥最高效能。

为了助力汽车厂商突破“特斯拉困境”,实现高级别自动驾驶的落地。地平线即将推出的征程 5 MAPS 整体跑分高达 3020 FPS,其中 MAPS@COCO (检测任务COCO MAPS) 跑分可高达 116,而 Nvidia Xavier MAPS@COCO 为 41 FPS (GPU&DLA@32W mode ),如此高的性能将助力车厂加速实现自动驾驶方案的落地。

驱动新基建数字底座,需要有算力也要有效率。自成立以来,地平线便致力于兼备算力与效率的高性能芯片。未来,地平线将推出性能更强大的征程6,其不仅在功耗、面积优化的基础上,同时在MAPS上继续提升一个数量级,助力全行业共同努力进一步大幅提升自动驾驶的安全性。

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特斯拉
    +关注

    关注

    66

    文章

    6292

    浏览量

    126461
  • AI
    AI
    +关注

    关注

    87

    文章

    30106

    浏览量

    268399
  • 自动驾驶
    +关注

    关注

    783

    文章

    13682

    浏览量

    166139

原文标题:不看算力看效率,更高级别的自动驾驶需要多少 “FPS”?

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    2.5D/3D封装技术升级,拉高AI芯片性能天花板

    电子发烧友网报道(文/李弯弯)一以来,提升芯片性能主要依靠先进制程的突破。但现在,人工智能对算力的需求,将芯片封装技术的重要性提升至前所未有的高度。为了提升
    的头像 发表于 07-11 01:12 6380次阅读

    多通道负载测试和性能评估

    情况下的性能。这种测试通常用于评估系统的最大处理能力,以及确定系统在何种负载下开始出现性能下降。多通道负载测试可以模拟真实的用户行为,包括用户的请求、响应和数据处理等。 在进行多通道负
    发表于 11-11 16:44

    如何评估AI大模型的效果

    评估AI大模型的效果是一个复杂且多维度的过程,涉及多个方面的考量。以下是一些关键的评估方法和步骤: 一、基准测试(Benchmarking) 使用标准数据集和任务来评估模型的
    的头像 发表于 10-23 15:21 387次阅读

    光学透过率测量仪的技术原理和应用场景

    :在建筑行业中,光学透过率测量仪被用于测试建筑材料(如窗户、天窗和其他透明部件)的透明度,以确保它们符合质量和性能标准。这对于需要控制光线进入量的建筑物尤为重要,如展览馆、图书馆等。此外,它还
    发表于 10-16 14:38

    天玑9400权威测试AI性能跑分第一,领跑行业

    的技术,一在端侧AI领域稳步前进,持续拓展AI能力及生态系统。NPU性能称霸,以最强端侧AI构筑“智能体化”坚实基底首先看天玑9400的
    的头像 发表于 10-14 14:57 361次阅读
    天玑9400权威测试<b class='flag-5'>AI</b><b class='flag-5'>性能</b>跑分第一,领跑行业

    过数字隔离器将SPI转换为GPIO

    电子发烧友网站提供《通过数字隔离器将SPI转换为GPIO.pdf》资料免费下载
    发表于 09-21 10:20 0次下载
    通<b class='flag-5'>过数字</b>隔离器将SPI转换为GPIO

    3D DRAM内嵌AI芯片AI计算性能暴增

    当前高带宽内存(HBM)中的DRAM芯片,通过在3D DRAM中实现AI处理来解决数据总线问题。   通常来说,当前的 AI芯片架构将数据存储在高带宽内存中,并通
    的头像 发表于 08-16 00:08 3125次阅读
    3D DRAM内嵌<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>,<b class='flag-5'>AI</b>计算<b class='flag-5'>性能</b>暴增

    AI芯片哪里买?

    AI芯片
    芯广场
    发布于 :2024年05月31日 16:58:19

    知存科技助力AI应用落地:WTMDK2101-ZT1评估板实地评测与性能揭秘

    资料后博主自己总结:存内计算技术的发展对于提高计算设备的整体性能、降低能耗并改善数据处理效率具有重要意义。值得一提的是,我国知存科技推出的 WTM2101 芯片即采用存内计算这种方式。 近存计算和存内
    发表于 05-16 16:38

    risc-v多核芯片AI方面的应用

    得RISC-V多核芯片能够更好地适应AI算法的不同需求,包括深度学习、神经网络等,从而提高芯片性能和效率,降低成本,使AI边缘计算晶片更具
    发表于 04-28 09:20

    英伟达将用AI设计AI芯片

    AI芯片行业资讯
    深圳市浮思特科技有限公司
    发布于 :2024年02月19日 17:54:43

    数字功放推荐-家庭影院常用的数字功放芯片

    随着科技的不断发展,数字功放芯片在家庭影院领域的应用越来越广泛;作为家庭影院的核心组件之一,其性能和质量对家庭影院的音质和画质有着至关重要的影响;其高效、稳定、音质优良等特点,为家庭影院带来了更加
    的头像 发表于 01-26 11:15 1594次阅读

    英伟达重启中国“特供版”AI芯片出货,性能缩水80%左右

    这一性能大幅缩水的“特供版”AI芯片引发了中国企业的疑虑。
    的头像 发表于 01-09 16:48 894次阅读

    IBM的新型模拟内存芯片能否证明AI操作的性能和能源效率呢?

    IBM 的新型模拟内存芯片证明了 AI 操作的性能和能源效率都是可能的。
    的头像 发表于 12-18 10:09 670次阅读

    电阻上的数字是什么意思?如何通过数字辨别电阻值?

    电阻上的数字是什么意思?如何通过数字辨别电阻值? 电阻是电子元件中常见的一种,它用于控制电流的流动,限制电路中的电流大小。而电阻上的数字则是用来标示电阻的阻值的。阻值是电阻对电流的阻碍程度的度量
    的头像 发表于 12-07 13:53 4757次阅读