0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种新的混合SoC处理器—GPNPU!

SSDFans 来源:SSDFans 作者:SSDFans 2022-12-09 10:19 次阅读

Performance, Power, Area(PPA)是半导体行业中常用的衡量标准。这三个指标对开发的所有电子产品都产生了巨大的影响。影响的程度当然取决于具体的电子产品以及目标终端市场和应用。因此,PPA权衡决策由产品公司在为各自的终端产品选择各种芯片(以及ASIC的IP)时做出。

另一个重要的考虑因素是在不需要重新设计的情况下确保产品的寿命。换句话说,就是让自己的产品适应不断变化的市场和产品需求。虽然产品公司在重新设计之前会采用辅助方法来延长产品的使用寿命,但直接提供future proofing的解决方案是首选的方法。例如,在需求快速变化的市场积极增长时期,FPGA在面向未来的通信基础设施产品中发挥了关键作用。当然,替代路径可能比FPGA路径提供更好的PPA收益。但是FPGA路径通过避免重新设计帮助产品公司节省了大量的时间和金钱,并确保他们能够保持或增长他们的市场份额。

还有一个考虑因素是,开发产品的路径可以提供方便和速度。这直接转化为上市时间,进而转化为市场份额和盈利能力。最后,客户可以轻松地在产品上开发应用软件。

市场情况

人工智能AI)驱动的、支持机器学习(ML)的产品和应用正在快速增长,并带来巨大的市场增长机会。新的ML模型正在快速引入,现有的模型也在增强。市场机会范围从数据中心到边缘人工智能产品和应用。许多针对这些市场的产品无法在PPA和产品/应用程序开发的易用性之间进行权衡。

如果有一种方法可以提供PPA优化、future proofing、便于产品和应用程序开发,所有这些都集中到一个产品中会怎么样呢?它是一个统一的体系结构,简化SoC硬件设计和编程的混合处理器IP。可以解决ML推理、预处理和后处理的一体化问题。

新型混合SoC处理器

最近,Quadric宣布了第一个通用神经处理器(GPNPU)系列,这是一种半导体知识产权(IP)产品,融合了神经处理加速器和数字信号处理器(DSP)。IP使用一个统一的体系结构,解决ML性能特征和DSP功能,具有完全的C++可编程性。本文将从一个典型的支持ML的SoC架构的组件、其局限性、Quadric产品、优点和可用性等方面展开介绍。

典型的支持ML的SoC架构的组件

支持ML架构的关键组件包括神经处理单元(NPU)、数字信号处理(DSP)单元和实时中央处理单元(CPU)。NPU用于运行当今最流行的ML网络的图形层,并且在已知的推理工作负载上表现非常好。DSP用于有效地执行语音和图像处理,并涉及复杂的数学运算。实时CPU用于协调NPU、DSP和存储ML模型权重的内存之间的ML工作负载。通常,只有CPU可直接供软件开发人员用于代码开发。NPU和DSP只能通过预定义的应用程序编程接口(API)访问。

典型架构的局限性

如上所述,典型的加速器NPU不是完全可编程的处理器。虽然它们非常高效地运行已知的图形层,但它们不能随着ML模型的发展而运行新的层。如果需要通过API不可用的ML操作符,则需要将其添加到CPU上,因为知道它的性能会很差。该架构不适合新ML模型和ML操作符的future proofing。充其量,可以通过在实时CPU上实现新的ML操作符来呈现性能较低的解决方案。

另一个限制是,程序员必须在NPU、DSP和实时CPU上划分代码,然后调整交互以满足期望的性能目标。典型的架构还可能导致在NPU核和CPU核之间拆分矩阵操作。由于需要在内核之间交换大数据块,因此此操作会导致推断延迟和功耗问题。

来自不同IP供应商的多个IP核迫使开发者依赖于多个设计和生产力工具链。必须使用多个工具链通常会延长开发时间,并使调试具有挑战性。

Quadric方法的好处

Quadric的Chimera GPNPU家族为ML推理和相关的传统C++图像、视频、雷达和其他信号处理创建了统一的单核体系结构。这允许将神经网络和C++代码合并到单个软件代码流中。内存带宽通过单一的统一编译堆栈进行优化,并使功耗显著减小。编程单核系统也比处理异构多核系统容易得多。标量、向量和矩阵计算只需要一个工具链。

统一的Chimera GPNPU架构的其他好处包括,由于不必在NPU、DSP和CPU之间移动激活数据,从而节省了面积和功耗。统一的核心架构大大简化了硬件集成,使性能优化任务更加容易。

分析内存使用情况以确定最佳片外带宽的系统设计任务也得到了简化。这也直接导致了功率最小化。

73841dc0-7764-11ed-8abf-dac502259ad0.png

应用程序开发

Chimera软件开发工具包(SDK)允许通过两步编译过程将来自通用ML训练工具集的图代码与客户的C++代码合并。这导致可以在统一的Chimera单处理器核心上运行的单一代码流。目前广泛使用的ML训练工具集有TensorFlow、PyTorch、ONNX和Caffe。实现的SoC的用户将拥有对Chimera所有核心资源的完全访问权,以实现应用程序编程的最大灵活性。整个系统也可以从单个调试控制台进行调试。

73dffa96-7764-11ed-8abf-dac502259ad0.png

在不损失性能的情况下实现future proofing

Chimera GPNPU架构擅长处理卷积层,这是卷积神经网络(CNNs)的核心。Chimera GPNPU可以运行任何ML操作符。通过使用Chimera计算库(CCL) API编写C++内核并使用Chimera SDK编译该内核,可以添加自定义ML操作符。自定义运算符的性能与本地运算符相同,因为它们利用了Chimera GPNPU的相关核心资源。

SoC开发人员可以在SoC被剥离后很长时间内实现新的神经网络运算符和库。这本身就大大增加了芯片的使用寿命。

软件开发人员可以在产品的整个生命周期中继续优化他们的模型和算法的性能。他们可以添加新的特性和功能,为他们的产品在市场上获得竞争优势。

Quadric的当前产品

Chimera架构已经在芯片领域得到了快速验证。QB系列GPNPU的整个家族可以在主流的16nm和7nm工艺中使用传统的标准电池流和常用的单端口SRAM实现1GHz的工作。Chimera核心可以针对任何芯片铸造厂和任何工艺技术。

Chimera GPNPU系列的QB系列包括三个核心:

Chimera QB1 -每秒1万亿次机器学习运算(TOPS),每秒64千兆次DSP运算(GOPs);

Chimera QB4 - 4 TOPS机器学习,256 GOP DSP;

Chimera QB16–16 TOPS机器学习,1 TOPS DSP;

如果需要,可以将两个或多个Chimera核心配对在一起,以满足更高级别的性能要求。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19083

    浏览量

    228735
  • soc
    soc
    +关注

    关注

    38

    文章

    4081

    浏览量

    217725
  • 人工智能
    +关注

    关注

    1789

    文章

    46576

    浏览量

    236899

原文标题:一种新的混合SoC处理器—GPNPU!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    对称多处理器和非对称多处理器的区别

    (Symmetric Multi-Processing,简称SMP)和非对称多处理器(Asymmetric Multi-Processing,简称AMP)。这两架构在设计理念、资源管理、任务分配和性能优化等方面存在显著差异。 对称多
    的头像 发表于 10-10 15:58 334次阅读

    盛显科技:在拼接处理器上配置混合矩阵的步骤是什么?

    处理器配置混合矩阵的步骤可以起到事半功倍的效果。那么您知道在拼接处理器上配置混合矩阵的步骤是什么吗?下面盛显科技小编为您介绍: 在拼接处理器
    的头像 发表于 09-26 18:09 247次阅读

    ARM处理器的结构和特点

    ARM处理器,全称Advanced RISC Machines,是一种基于精简指令集(RISC)架构的微处理器。其结构和特点在嵌入式系统、移动设备、物联网等多个领域具有显著优势。以下将详细阐述ARM
    的头像 发表于 09-10 11:09 470次阅读

    盛显科技:拼接处理器为什么要配置混合矩阵?

    使用。那么您知道拼接处理器为什么要配置混合矩阵?下面盛显科技小编为您介绍: 在拼接处理器上配置混合矩阵的原因,主要基于以下几点: 、实现多
    的头像 发表于 09-06 11:23 249次阅读
    盛显科技:拼接<b class='flag-5'>处理器</b>为什么要配置<b class='flag-5'>混合</b>矩阵?

    MSP430FE42xA混合信号微处理器数据表

    电子发烧友网站提供《MSP430FE42xA混合信号微处理器数据表.pdf》资料免费下载
    发表于 08-09 11:32 0次下载
    MSP430FE42xA<b class='flag-5'>混合</b>信号微<b class='flag-5'>处理器</b>数据表

    MSP430F2013-EP混合信号微处理器数据表

    电子发烧友网站提供《MSP430F2013-EP混合信号微处理器数据表.pdf》资料免费下载
    发表于 08-09 11:14 0次下载
    MSP430F2013-EP<b class='flag-5'>混合</b>信号微<b class='flag-5'>处理器</b>数据表

    MSP430xG461x混合信号微处理器数据表

    电子发烧友网站提供《MSP430xG461x混合信号微处理器数据表.pdf》资料免费下载
    发表于 08-03 09:40 0次下载
    MSP430xG461x<b class='flag-5'>混合</b>信号微<b class='flag-5'>处理器</b>数据表

    AM8268N处理器英文手册

    AM8268N描述:来自动作微技术的AM8268N处理器个高度集成的混合信号SoC目标。AM8268N嵌入式CPU是一种高性能、低功耗的
    发表于 07-08 15:02 0次下载

    嵌入式微处理器般可分为哪四类型

    嵌入式微处理器一种专门设计用于嵌入式系统中的微处理器。它们通常用于控制和管理电子设备的各种任务,例如自动化系统、家电、电子设备以及工业机械等。嵌入式微处理器可以根据应用的需求分为四
    的头像 发表于 04-21 09:45 1220次阅读

    dsp是嵌入式微处理器一种设备吗 ARM嵌入式微处理器有何特点?

    DSP(Digital Signal Processor)不是一种嵌入式微处理器的设备。DSP是一种专门用于数字信号处理的微处理器,它具有高
    的头像 发表于 04-21 09:37 870次阅读

    dsp和嵌入式微处理器的区别和联系

    一种专门用于数字信号处理(Digital Signal Processing)的处理器。数字信号处理一种通过对数字信号进行算法运算来
    的头像 发表于 04-21 09:35 860次阅读

    华为pockets是什么处理器

    华为Pockets的处理器型号是高通骁龙778G 4G SoC。这款处理器可以提供出色的性能,满足用户的各种需求,同时支持快速的应用程序响应和流畅的操作体验。
    的头像 发表于 03-05 17:16 1327次阅读

    华为pockets处理器型号

    华为Pockets的处理器型号是高通骁龙778G 4G SoC。这款处理器可以提供出色的性能,满足用户的各种需求,同时支持快速的应用程序响应和流畅的操作体验。
    的头像 发表于 03-05 16:53 1026次阅读

    浅谈SoC中常用的处理器

    复杂系统执行多种多样的复杂任务。任务常因为市场需求而改变。处理器的软件可编程性使得它可以实现更加快速的功能开发和提供更加敏捷的可适性,已成为SoC最为重要的组件,其性能直接决定了系统性能的优劣。
    的头像 发表于 02-23 09:19 1043次阅读
    浅谈<b class='flag-5'>SoC</b>中常用的<b class='flag-5'>处理器</b>

    如何实现一种具有介质腔与金属腔体混合的新型带通滤波的设计?

    设计了一种新型的滤波,就是在传统的腔体滤波中加入介质谐振腔,即金属腔体和介质腔体混合一种结构.这种
    的头像 发表于 12-11 10:00 1195次阅读
    如何实现<b class='flag-5'>一种</b>具有介质腔与金属腔体<b class='flag-5'>混合</b>的新型带通滤波<b class='flag-5'>器</b>的设计?