0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

神经处理器GPNPU支持ML的SoC架构

sakobpqhz 来源:算力基建 作者:算力基建 2022-12-20 11:13 次阅读

Performance, Power, Area(PPA)是半导体行业中常用的衡量标准。这三个指标对开发的所有电子产品都产生了巨大的影响。影响的程度当然取决于具体的电子产品以及目标终端市场和应用。因此,PPA权衡决策由产品公司在为各自的终端产品选择各种芯片(以及ASIC的IP)时做出。

另一个重要的考虑因素是在不需要重新设计的情况下确保产品的寿命。换句话说,就是让自己的产品适应不断变化的市场和产品需求。虽然产品公司在重新设计之前会采用辅助方法来延长产品的使用寿命,但直接提供future proofing的解决方案是首选的方法。例如,在需求快速变化的市场积极增长时期,FPGA在面向未来的通信基础设施产品中发挥了关键作用。当然,替代路径可能比FPGA路径提供更好的PPA收益。但是FPGA路径通过避免重新设计帮助产品公司节省了大量的时间和金钱,并确保他们能够保持或增长他们的市场份额。

还有一个考虑因素是,开发产品的路径可以提供方便和速度。这直接转化为上市时间,进而转化为市场份额和盈利能力。最后,客户可以轻松地在产品上开发应用软件。

01市场情况

人工智能AI)驱动的、支持机器学习(ML)的产品和应用正在快速增长,并带来巨大的市场增长机会。新的ML模型正在快速引入,现有的模型也在增强。市场机会范围从数据中心到边缘人工智能产品和应用。许多针对这些市场的产品无法在PPA和产品/应用程序开发的易用性之间进行权衡。

如果有一种方法可以提供PPA优化、future proofing、便于产品和应用程序开发,所有这些都集中到一个产品中会怎么样呢?它是一个统一的体系结构,简化SoC硬件设计和编程的混合处理器IP。可以解决ML推理、预处理和后处理的一体化问题。

02新型混合SoC处理器

最近,Quadric宣布了第一个通用神经处理器(GPNPU)系列,这是一种半导体知识产权(IP)产品,融合了神经处理加速器和数字信号处理器(DSP)。IP使用一个统一的体系结构,解决ML性能特征和DSP功能,具有完全的C++可编程性。本文将从一个典型的支持ML的SoC架构的组件、其局限性、Quadric产品、优点和可用性等方面展开介绍。

03典型的支持ML的SoC架构的组件

支持ML架构的关键组件包括神经处理单元(NPU)、数字信号处理(DSP)单元和实时中央处理单元(CPU)。NPU用于运行当今最流行的ML网络的图形层,并且在已知的推理工作负载上表现非常好。DSP用于有效地执行语音和图像处理,并涉及复杂的数学运算。实时CPU用于协调NPU、DSP和存储ML模型权重的内存之间的ML工作负载。通常,只有CPU可直接供软件开发人员用于代码开发。NPU和DSP只能通过预定义的应用程序编程接口(API)访问。

04典型架构的局限性

如上所述,典型的加速器NPU不是完全可编程的处理器。虽然它们非常高效地运行已知的图形层,但它们不能随着ML模型的发展而运行新的层。如果需要通过API不可用的ML操作符,则需要将其添加到CPU上,因为知道它的性能会很差。该架构不适合新ML模型和ML操作符的future proofing。充其量,可以通过在实时CPU上实现新的ML操作符来呈现性能较低的解决方案。

另一个限制是,程序员必须在NPU、DSP和实时CPU上划分代码,然后调整交互以满足期望的性能目标。典型的架构还可能导致在NPU核和CPU核之间拆分矩阵操作。由于需要在内核之间交换大数据块,因此此操作会导致推断延迟和功耗问题。

来自不同IP供应商的多个IP核迫使开发者依赖于多个设计和生产力工具链。必须使用多个工具链通常会延长开发时间,并使调试具有挑战性。

05Quadric方法的好处

Quadric的Chimera GPNPU家族为ML推理和相关的传统C++图像、视频、雷达和其他信号处理创建了统一的单核体系结构。这允许将神经网络和C++代码合并到单个软件代码流中。内存带宽通过单一的统一编译堆栈进行优化,并使功耗显著减小。编程单核系统也比处理异构多核系统容易得多。标量、向量和矩阵计算只需要一个工具链。

统一的Chimera GPNPU架构的其他好处包括,由于不必在NPU、DSP和CPU之间移动激活数据,从而节省了面积和功耗。统一的核心架构大大简化了硬件集成,使性能优化任务更加容易。

分析内存使用情况以确定最佳片外带宽的系统设计任务也得到了简化。这也直接导致了功率最小化。

d067e60e-8013-11ed-8abf-dac502259ad0.png

06应用程序开发

Chimera软件开发工具包(SDK)允许通过两步编译过程将来自通用ML训练工具集的图代码与客户的C++代码合并。这导致可以在统一的Chimera单处理器核心上运行的单一代码流。目前广泛使用的ML训练工具集有TensorFlow、PyTorch、ONNX和Caffe。实现的SoC的用户将拥有对Chimera所有核心资源的完全访问权,以实现应用程序编程的最大灵活性。整个系统也可以从单个调试控制台进行调试。

d083b488-8013-11ed-8abf-dac502259ad0.png

07在不损失性能的情况下

实现future proofing

Chimera GPNPU架构擅长处理卷积层,这是卷积神经网络(CNNs)的核心。Chimera GPNPU可以运行任何ML操作符。通过使用Chimera计算库(CCL) API编写C++内核并使用Chimera SDK编译该内核,可以添加自定义ML操作符。自定义运算符的性能与本地运算符相同,因为它们利用了Chimera GPNPU的相关核心资源。

SoC开发人员可以在SoC被剥离后很长时间内实现新的神经网络运算符和库。这本身就大大增加了芯片的使用寿命。

软件开发人员可以在产品的整个生命周期中继续优化他们的模型和算法的性能。他们可以添加新的特性和功能,为他们的产品在市场上获得竞争优势。

08Quadric的当前产品

Chimera架构已经在芯片领域得到了快速验证。QB系列GPNPU的整个家族可以在主流的16nm和7nm工艺中使用传统的标准电池流和常用的单端口SRAM实现1GHz的工作。Chimera核心可以针对任何芯片铸造厂和任何工艺技术。

Chimera GPNPU系列的QB系列包括三个核心:

Chimera QB1 -每秒1万亿次机器学习运算(TOPS),每秒64千兆次DSP运算(GOPs); Chimera QB4 - 4 TOPS机器学习,256 GOP DSP;

Chimera QB16–16 TOPS机器学习,1 TOPS DSP;

如果需要,可以将两个或多个Chimera核心配对在一起,以满足更高级别的性能要求。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18945

    浏览量

    227374
  • 半导体
    +关注

    关注

    334

    文章

    26412

    浏览量

    210280
  • soc
    soc
    +关注

    关注

    38

    文章

    4028

    浏览量

    217104

原文标题:一种新的混合SoC处理器—GPNPU

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    新的 MathWorks 硬件支持支持从 MATLAB 和 Simulink 模型到高通 Hexagon 神经处理单元架构的自动化代码生成

    新的硬件支持包不仅无需耗时的手写代码优化和验证,还支持处理器在环测试 MathWorks 今天宣布,推出针对 Qualcomm® Hexagon™ 神经
    的头像 发表于 09-23 11:59 81次阅读

    处理器的指令集架构介绍

    处理器的指令集架构(Instruction Set Architecture,ISA)是计算机体系结构中至关重要的部分,它定义了微处理器能够执行的操作和指令的集合,以及这些指令如何被组织、存储
    的头像 发表于 08-22 10:53 459次阅读

    神经网络架构有哪些

    神经网络架构是机器学习领域中的核心组成部分,它们模仿了生物神经网络的运作方式,通过复杂的网络结构实现信息的处理、存储和传递。随着深度学习技术的不断发展,各种
    的头像 发表于 07-01 14:16 365次阅读

    Alif Semiconductor宣布推出先进的BLE和Matter无线微控制,搭载适用于AI/ML工作负载的神经网络协同处理器

    4 月 18 日 -先进的安全、互联、节能的人工智能和机器学习(AI/ML)微控制(MCU)和融合处理器供应商Alif Semiconductor®今天宣布推出Balletto™系列。该系列是先进
    发表于 04-18 17:51 607次阅读
    Alif Semiconductor宣布推出先进的BLE和Matter无线微控制<b class='flag-5'>器</b>,搭载适用于AI/<b class='flag-5'>ML</b>工作负载的<b class='flag-5'>神经</b>网络协同<b class='flag-5'>处理器</b>

    芯原股份DC8200显示处理器IP助力赛昉科技RISC-V架构SoC

    芯原股份宣布,赛昉科技成功将芯原的先进显示处理器IP DC8200应用于其基于RISC-V架构的量产SoC昉·惊鸿-7110中。JH-7110 SoC以其卓越的性能、低功耗和安全性,为
    的头像 发表于 03-27 10:02 512次阅读

    华为pockets是什么处理器

    华为Pockets的处理器型号是高通骁龙778G 4G SoC。这款处理器可以提供出色的性能,满足用户的各种需求,同时支持快速的应用程序响应和流畅的操作体验。
    的头像 发表于 03-05 17:16 1191次阅读

    华为pockets处理器型号

    华为Pockets的处理器型号是高通骁龙778G 4G SoC。这款处理器可以提供出色的性能,满足用户的各种需求,同时支持快速的应用程序响应和流畅的操作体验。
    的头像 发表于 03-05 16:53 919次阅读

    浅谈SoC中常用的处理器

    复杂系统执行多种多样的复杂任务。任务常因为市场需求而改变。处理器的软件可编程性使得它可以实现更加快速的功能开发和提供更加敏捷的可适性,已成为SoC最为重要的组件,其性能直接决定了系统性能的优劣。
    的头像 发表于 02-23 09:19 823次阅读
    浅谈<b class='flag-5'>SoC</b>中常用的<b class='flag-5'>处理器</b>

    现代处理器的主要指令集架构

    ​ ​现代处理器的主要指令集架构(ISA)包括:x86指令集架构、RISC指令集架构
    的头像 发表于 12-11 09:55 3311次阅读
    现代<b class='flag-5'>处理器</b>的主要指令集<b class='flag-5'>架构</b>

    简单认识高级处理器

    Processing Unit, APU) 、采用异构系统架构 ( Heterogeneous System Architecture,HSA) 特征设计的集成电路、基于人工神经网络(Artificial Neural Networks,ANN) 深度学习 (Deep
    的头像 发表于 12-07 11:31 765次阅读
    简单认识高级<b class='flag-5'>处理器</b>

    简单认识MIPS架构处理器

    无互锁流水级微处理器 (Microprocessors without Interlocked Pipeline Stages,MIPS) 是流行的 RISC 架构处理器之一。其原理是尽量利用软件
    的头像 发表于 11-29 09:14 1465次阅读
    简单认识MIPS<b class='flag-5'>架构</b><b class='flag-5'>处理器</b>

    简单认识POWER系列架构处理器

    的 POWER ( Performance Optimization With Enhanced RISC) 架构的原型机。1990年 IBM 推出了第一代的 POWER1架构处理器,随后 1993 年
    的头像 发表于 11-28 09:21 1798次阅读
    简单认识POWER系列<b class='flag-5'>架构</b><b class='flag-5'>处理器</b>

    简单认识IA-64架构处理器

    IA- 64 架构处理器(IA - 64 Processors )最早为安腾架构 (Itanium Architecture)处理器的缩写,支持
    的头像 发表于 11-27 09:33 1087次阅读

    一文详解CP15协处理器

    ARM架构通过支持处理器来扩展处理器的功能。ARM架构处理器
    发表于 10-31 16:07 1629次阅读
    一文详解CP15协<b class='flag-5'>处理器</b>

    贸泽开售用于高级驾驶辅助系统和自动泊车的 Texas Instruments TDA4x SoC处理器

    Instruments的TDA4VE、TDA4AL和TDA4VL片上系统 (SoC) 处理器。该系列SoC处理器专为智能视觉相机应用而设计,支持
    发表于 10-24 14:13 1888次阅读