0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

边缘AI处理器拼的只是算力和功耗吗

lPCU_elecfans 来源:电子发烧友网 作者: 周凯扬 2021-11-02 11:10 次阅读

电子发烧友网报道(文/周凯扬)AI应用如同燃起的野火一般,从消费级的手机端,出现在了工业级的超级游轮和航空级的空间站上。然而在边缘端,这些应用遇上了传统应用也挣扎了数年的需求:更高的性能、更大的容量和更低的功耗。

更糟糕的是,机器学习模型正在以指数级的速度增长,每3到5个月就会翻一番。要想应用这些模型的话,传统的计算芯片已经难以利用有限的内存资源和功率提供高性能,连数据中心都在AI工作负载上感到吃力了,更不用说在边缘侧运行的大型模型。为此,边缘AI处理器成了不少芯片大厂和初创企业的发力方向。然而在处理器的选取上,并不是仅仅看算力、功耗和成本而已。

边缘AI处理器的选择

首先,AI芯片公司不仅要有硬件开发实力,也要具备强大的AI软件栈和工具。比如英特尔英伟达之类的厂商,其CPUGPU设计早已为TensorFlow、Caffe或Pytorch等框架提供了支持,但初创企业自研架构的AI处理器往往需要打造自己的编译器来支持这些框架。

其次,是处理器支持的神经网络精度。多数边缘AI处理器精度并不高,这是因为将神经网络转换为低精度简化了硬件设计,同时也极大地降低了功耗。要想保持高精度的话,往往需要重新训练神经网络。

Nvidia - Jetson Xavier NX

英伟达于2019年公布了一款名为“Jetson Xavier NX”的AI处理器,专门用于边缘系统和嵌入式应用。Jetson Xavier NX只有70mm x 45mm的大小,却可以在15W的功耗下提供21 TOPS(INT8)的AI算力。

Jetson Xavier NX集成了6核CPU、384核GPU、48个Tensor核心、2个NVDLA深度学习加速器和7路VLIW视觉处理器加速器。其中CPU选用了英伟达Carmel Arm核心,GPU则是基于Volta架构。该处理器还配备了8GB 128位的LDDR4x内存,可提供59.7GB/s的带宽性能。

英伟达已经为用户提供了开发者套件,可以创建高性能的AI应用,并快速部署深度神经网络模型和常见的机器学习框架,比如Tensorflow和Pytorch等,除此之外也可以用到cuDNN、TensorRT和DeepStream等一系列软件库和加速工具。

Jetson Xavier NX最大的优势在于其Jetson产品线全部基于同一软件栈,所以可以直接套用更强大的Jetson AGX Xavier上的AI应用,只不过算力要稍低一截而已。凭借其21TOPS的AI算力,加上加速器提供的视频处理器性能,可以毫无压力地完成人体识别、自研语言处理、姿势检测和注视检测等AI应用,适用于自动光学检测和智能摄像头等一系列边缘IoT设备。

Hailo - Hailo-8

Hailo是一家来自于以色列的AI芯片公司,不少核心开发成员来自于以色列国防科技部门,主要负责为边缘设备开发高性能的AI处理器。早在2019年,Hailo就公布了其自研的边缘AI处理器Hailo-8,其算力可达26TOPS(INT8),但该处理器的典型功耗仅有2.5W。在完成了多轮融资后,Hailo也在今年开始了Hailo-8的量产。

55d3c90a-3b84-11ec-82a9-dac502259ad0.png

Hailo-8与Jetson产品的对比 / Hailo

与传统的CPU、GPU、DSP或硬件加速器的架构不同,Hailo在这款处理器上运用了自研的结构定义数据流架构。在ResNet-50的神经网络测试中,Hailo-8取得了1330FPS@3.2W的成绩。Hailo还在官网晒出出了Hailo-8与英伟达Jetson Nano与Xavier NX在ResNet和SSD_MobileNet等模型下的预期表现对比,我们从上图可以看出,Hailo-8在性能上优势明显,能耗比更是让英伟达的两款Jetson处理器望尘莫及。

Hailo还准备好了开源的Model Zoo,其中囊括了物体识别、分类、人脸检测识别等60多种计算机视觉任务的深度学习模型。开发者利用这些预训练的Tensorflow和ONNX模型,只需用上自己的数据重新训练,即可在Hailo设备上迅速创建好原型。

Mythic - M1076

美国德州的初创公司Mythic推出了利用存内计算技术的M1076模拟矩阵处理器(AMP)。单个M1076芯片的面积只有360mm2,却可以在3W至4W的功耗下提供35 TOPS的算力,与常见的SoC或GPU方案相比,功耗低了10倍以上。

但这并不是M1076的最大特色,与传统数字计算方式不同,Mythic在M1076上运用了模拟计算。模拟计算虽然理论上要要与数字计算,但长久以来收到尺寸的限制,在速度与扩展性上一直提不上去。然而Mythic通过将模拟运算与嵌入式闪存结合,选择了存内计算的方式。

M1076同时支持INT4、INT8和INT16三种数据类型,非常适合作为TinyML的开发平台。Mythic也为客户提供了物体识别/分类、图像分割和姿势评估等模型,可用于AR/VR中的智能健身和游戏等应用。

小结

云计算在边缘端的弱势使得边缘AI处理器有了崛起的机会,在工业4.0、自动化系统和智能IoT的潮流下,边缘AI还需要继续开拓应用场景,而不仅仅是用于机器视觉任务。边缘AI处理器厂商也必须继续提供更多的模型,帮助开发者加速边缘AI应用的落地。

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19334

    浏览量

    230186
  • 芯片
    +关注

    关注

    456

    文章

    50919

    浏览量

    424581
  • AI
    AI
    +关注

    关注

    87

    文章

    31054

    浏览量

    269407
  • 机器学习
    +关注

    关注

    66

    文章

    8423

    浏览量

    132757

原文标题:边缘AI处理器拼的不仅是算力和功耗

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    进迭时空 K1 系列 8 核 64 位 RISC - V AI CPU 芯片介绍

    一、总体概述K1 系列是基于 RISC - V 开源指令集打造的 AI CPU,致力于构建更通用、高能效的 AI 处理器平台,推动全球开源、开放的 AI
    发表于 01-06 17:37

    企业AI租赁模式的好处

    构建和维护一个高效、可扩展的AI基础设施,不仅需要巨额的初期投资,还涉及复杂的运维管理和持续的技术升级。而AI
    的头像 发表于 12-24 10:49 141次阅读

    未来边缘GPU在车联网中的创新应用(下)

    数据,实现高效的通信和数据处理边缘GPU力作为一种高性能的计算设备,能够在本地处理和分析来自车辆传感和外部环境的数据,为车联网应用提供
    的头像 发表于 12-19 11:16 195次阅读
    未来<b class='flag-5'>边缘</b>GPU<b class='flag-5'>算</b><b class='flag-5'>力</b>在车联网中的创新应用(下)

    企业AI租赁是什么

    企业AI租赁是指企业通过互联网向专业的提供商租用所需的计算资源,以满足其AI应用的需求。
    的头像 发表于 11-14 09:30 747次阅读

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    、GPU、NPU,给我们剖析了芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解芯片。 全书共11章,
    发表于 10-15 22:08

    超紧凑模块提供高达 39 TOPS AI

    的 XDNA™ NPU 和强大的 Radeon RDNA 3™ 图形处理器,可为AI推理提供高达39 TOPS的惊人。      这使得全新conga-TCR8 Type 6模块在
    发表于 09-25 13:46 1323次阅读
     超紧凑模块提供高达 39 TOPS <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>

    米尔STM32MP2核心板首发新品上市!高性能+多接口+边缘

    的工业4.0应用赋能。 机器视觉 先进的边缘AI STM32MP25内置高达1.35 TOPS的NPU边缘
    发表于 09-20 18:24

    基于全志V853处理器的智能辅助驾驶算法介绍

    全志V853处理器,是专为智慧视觉领域设计的AI处理器,配备了高效的NPU和丰富的外设接口,能够提供稳定的
    的头像 发表于 09-14 09:23 774次阅读
    基于全志V853<b class='flag-5'>处理器</b>的智能辅助驾驶算法介绍

    使用边缘AI和Sitara处理器进行关键字检测

    电子发烧友网站提供《使用边缘AI和Sitara处理器进行关键字检测.pdf》资料免费下载
    发表于 09-02 11:30 0次下载
    使用<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>和Sitara<b class='flag-5'>处理器</b>进行关键字检测

    AI核心板:Core-1688JD4

    采用SOPHON能八核AI处理器BM1688,INT8高达16TOPS,支持16路解码+10路编码+16路
    的头像 发表于 05-15 08:02 1430次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>核心板:Core-1688JD4

    AIGC掀需求革命,边缘计算将不再“边缘

    AI瓶颈下边缘计算崛起
    的头像 发表于 04-22 14:51 363次阅读

    AMD推出锐龙8000嵌入式处理器AI高达39 T

    此款CPU选用4纳米制程、AMD基于“Zen 4”架构的CPU核心以及使用RDNA 3架构GPU和XDNA架构NPU,实现高达39TOPS的AI,其中NPU
    的头像 发表于 04-03 10:39 906次阅读

    256Tops!CSA1-N8S1684X服务

    (基于BM1684X的高服务)高AI处理器
    的头像 发表于 03-23 08:02 1674次阅读
    256Tops<b class='flag-5'>算</b><b class='flag-5'>力</b>!CSA1-N8S1684X<b class='flag-5'>算</b><b class='flag-5'>力</b>服务<b class='flag-5'>器</b>

    能RADXA微服务试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,能RADXA微服务的具体规格: 处理器:BM1684X :高达32Tops INT8峰值
    发表于 02-28 11:21

    EASY-EAI携手Hailo推出高性能、高边缘AI硬件组合

    EASY-EAI与Hailo建立合作关系,共同推出高边缘AI产品组合。
    的头像 发表于 02-21 09:56 850次阅读