0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种新的混合SoC处理器—GPNPU!

SSDFans 来源:SSDFans 作者:SSDFans 2022-12-09 10:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Performance, Power, Area(PPA)是半导体行业中常用的衡量标准。这三个指标对开发的所有电子产品都产生了巨大的影响。影响的程度当然取决于具体的电子产品以及目标终端市场和应用。因此,PPA权衡决策由产品公司在为各自的终端产品选择各种芯片(以及ASIC的IP)时做出。

另一个重要的考虑因素是在不需要重新设计的情况下确保产品的寿命。换句话说,就是让自己的产品适应不断变化的市场和产品需求。虽然产品公司在重新设计之前会采用辅助方法来延长产品的使用寿命,但直接提供future proofing的解决方案是首选的方法。例如,在需求快速变化的市场积极增长时期,FPGA在面向未来的通信基础设施产品中发挥了关键作用。当然,替代路径可能比FPGA路径提供更好的PPA收益。但是FPGA路径通过避免重新设计帮助产品公司节省了大量的时间和金钱,并确保他们能够保持或增长他们的市场份额。

还有一个考虑因素是,开发产品的路径可以提供方便和速度。这直接转化为上市时间,进而转化为市场份额和盈利能力。最后,客户可以轻松地在产品上开发应用软件。

市场情况

人工智能AI)驱动的、支持机器学习(ML)的产品和应用正在快速增长,并带来巨大的市场增长机会。新的ML模型正在快速引入,现有的模型也在增强。市场机会范围从数据中心到边缘人工智能产品和应用。许多针对这些市场的产品无法在PPA和产品/应用程序开发的易用性之间进行权衡。

如果有一种方法可以提供PPA优化、future proofing、便于产品和应用程序开发,所有这些都集中到一个产品中会怎么样呢?它是一个统一的体系结构,简化SoC硬件设计和编程的混合处理器IP。可以解决ML推理、预处理和后处理的一体化问题。

新型混合SoC处理器

最近,Quadric宣布了第一个通用神经处理器(GPNPU)系列,这是一种半导体知识产权(IP)产品,融合了神经处理加速器和数字信号处理器(DSP)。IP使用一个统一的体系结构,解决ML性能特征和DSP功能,具有完全的C++可编程性。本文将从一个典型的支持ML的SoC架构的组件、其局限性、Quadric产品、优点和可用性等方面展开介绍。

典型的支持ML的SoC架构的组件

支持ML架构的关键组件包括神经处理单元(NPU)、数字信号处理(DSP)单元和实时中央处理单元(CPU)。NPU用于运行当今最流行的ML网络的图形层,并且在已知的推理工作负载上表现非常好。DSP用于有效地执行语音和图像处理,并涉及复杂的数学运算。实时CPU用于协调NPU、DSP和存储ML模型权重的内存之间的ML工作负载。通常,只有CPU可直接供软件开发人员用于代码开发。NPU和DSP只能通过预定义的应用程序编程接口(API)访问。

典型架构的局限性

如上所述,典型的加速器NPU不是完全可编程的处理器。虽然它们非常高效地运行已知的图形层,但它们不能随着ML模型的发展而运行新的层。如果需要通过API不可用的ML操作符,则需要将其添加到CPU上,因为知道它的性能会很差。该架构不适合新ML模型和ML操作符的future proofing。充其量,可以通过在实时CPU上实现新的ML操作符来呈现性能较低的解决方案。

另一个限制是,程序员必须在NPU、DSP和实时CPU上划分代码,然后调整交互以满足期望的性能目标。典型的架构还可能导致在NPU核和CPU核之间拆分矩阵操作。由于需要在内核之间交换大数据块,因此此操作会导致推断延迟和功耗问题。

来自不同IP供应商的多个IP核迫使开发者依赖于多个设计和生产力工具链。必须使用多个工具链通常会延长开发时间,并使调试具有挑战性。

Quadric方法的好处

Quadric的Chimera GPNPU家族为ML推理和相关的传统C++图像、视频、雷达和其他信号处理创建了统一的单核体系结构。这允许将神经网络和C++代码合并到单个软件代码流中。内存带宽通过单一的统一编译堆栈进行优化,并使功耗显著减小。编程单核系统也比处理异构多核系统容易得多。标量、向量和矩阵计算只需要一个工具链。

统一的Chimera GPNPU架构的其他好处包括,由于不必在NPU、DSP和CPU之间移动激活数据,从而节省了面积和功耗。统一的核心架构大大简化了硬件集成,使性能优化任务更加容易。

分析内存使用情况以确定最佳片外带宽的系统设计任务也得到了简化。这也直接导致了功率最小化。

73841dc0-7764-11ed-8abf-dac502259ad0.png

应用程序开发

Chimera软件开发工具包(SDK)允许通过两步编译过程将来自通用ML训练工具集的图代码与客户的C++代码合并。这导致可以在统一的Chimera单处理器核心上运行的单一代码流。目前广泛使用的ML训练工具集有TensorFlow、PyTorch、ONNX和Caffe。实现的SoC的用户将拥有对Chimera所有核心资源的完全访问权,以实现应用程序编程的最大灵活性。整个系统也可以从单个调试控制台进行调试。

73dffa96-7764-11ed-8abf-dac502259ad0.png

在不损失性能的情况下实现future proofing

Chimera GPNPU架构擅长处理卷积层,这是卷积神经网络(CNNs)的核心。Chimera GPNPU可以运行任何ML操作符。通过使用Chimera计算库(CCL) API编写C++内核并使用Chimera SDK编译该内核,可以添加自定义ML操作符。自定义运算符的性能与本地运算符相同,因为它们利用了Chimera GPNPU的相关核心资源。

SoC开发人员可以在SoC被剥离后很长时间内实现新的神经网络运算符和库。这本身就大大增加了芯片的使用寿命。

软件开发人员可以在产品的整个生命周期中继续优化他们的模型和算法的性能。他们可以添加新的特性和功能,为他们的产品在市场上获得竞争优势。

Quadric的当前产品

Chimera架构已经在芯片领域得到了快速验证。QB系列GPNPU的整个家族可以在主流的16nm和7nm工艺中使用传统的标准电池流和常用的单端口SRAM实现1GHz的工作。Chimera核心可以针对任何芯片铸造厂和任何工艺技术。

Chimera GPNPU系列的QB系列包括三个核心:

Chimera QB1 -每秒1万亿次机器学习运算(TOPS),每秒64千兆次DSP运算(GOPs);

Chimera QB4 - 4 TOPS机器学习,256 GOP DSP;

Chimera QB16–16 TOPS机器学习,1 TOPS DSP;

如果需要,可以将两个或多个Chimera核心配对在一起,以满足更高级别的性能要求。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    20324

    浏览量

    254682
  • soc
    soc
    +关注

    关注

    40

    文章

    4619

    浏览量

    230078
  • 人工智能
    +关注

    关注

    1819

    文章

    50287

    浏览量

    266826

原文标题:一种新的混合SoC处理器—GPNPU!

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    STA2064:高度集成的信息娱乐应用处理器

    STA2064:高度集成的信息娱乐应用处理器 在当今的电子设备领域,高性能、低功耗且功能丰富的处理器是推动各类应用发展的核心力量。STA2064作为款高度集成的SOC应用
    的头像 发表于 04-16 14:05 73次阅读

    用 ISL6323 为 AMD 处理器供电:设计与评估全解析

    用 ISL6323 为 AMD 处理器供电:设计与评估全解析 在电子设计领域,为 AMD 处理器提供稳定可靠的电源是至关重要的。ISL6323 作为款支持 AMD 处理器
    的头像 发表于 04-13 18:05 327次阅读

    ADSP-CM40xF系列混合信号控制处理器:高性能与多功能的完美融合

    ADSP-CM40xF系列混合信号控制处理器:高性能与多功能的完美融合 在当今的电子设计领域,对于高性能、多功能处理器的需求日益增长。ADSP-CM40xF系列混合信号控制
    的头像 发表于 03-24 09:15 451次阅读

    DPU数据处理器的核心功能和应用领域

    DPU,全称数据处理器(Data Processing Unit),是一种专门用于处理数据中心中数据流动与基础设施任务的专用处理器。它既不像CPU那样直接参与最终的业务决策,也不像GP
    的头像 发表于 02-02 13:52 865次阅读
    DPU数据<b class='flag-5'>处理器</b>的核心功能和应用领域

    MAXIM 纳米功耗微处理器监控电路:设计与应用指南

    处理器在各种情况下都能可靠工作,监控电路成为了不可或缺的部分。MAXIM 的 MAX6854/MAX6855/MAX6856/MAX6858/MAX6860 - MAX6869 系列纳米功耗微处理器
    的头像 发表于 01-29 17:15 671次阅读

    【「龙芯之光 自主可控处理器设计解析」阅读体验】--LoongArch的SOC逻辑设计

    模块设计包括了CPU架构、总线、内存、系统复位、时钟、外设等。 搭建软件环境使用EDA VCS和Verdi。介绍如下,具体使用可参照书籍该处。 VCS是Synopsys公司开发的一种常用的Verilog
    发表于 01-18 13:45

    【「龙芯之光 自主可控处理器设计解析」阅读体验】--全书概览与概述

    与讲解,理论与实践相结合,对了解熟悉国产龙芯处理器很有帮助。 .全书概览 下面是全书目录,可以概览全书内容 第1章 概述 1.1 系统级芯片 1.2处理器架构及指令 1.3LoongArch及指令集 第
    发表于 01-18 12:58

    瑞芯微SOC智能视觉AI处理器

    RK3568B2: 款性能均衡、接口丰富的中高端AIoT应用处理器,是RK3568的优化版本,主打稳定与可靠性。CPU/GPU: 延续RK3568的4核A55 + G52 GPU架构,性能可靠
    发表于 12-19 13:44

    算力积木+3D堆叠!GPNPU架构创新,应对AI推理需求

    落地的关键瓶颈。在此背景下,云天励飞推出其第五代芯片架构——GPNPU(General-Purpose Neural Processing Unit,通用神经网络处理单元),以场底层架构的革命,试图重塑AI算力格局,推动大模型
    的头像 发表于 12-11 08:57 8048次阅读

    MD5信息摘要算法实现二(基于蜂鸟E203协处理器

    处理器SoC体系结构设计图 在NICE接口和MD5模块间,设置了个使能电路,该电路把NICE指令译码后,根据译码的结果控制MD5的控制模块。例如,根据指令译码后,得出start_en的值为111
    发表于 10-30 07:54

    Cortex-M0+处理器的HardFault错误介绍

    在ARM处理器中,如果个程序产生了错误并且被处理器检测到,就会产生错误异常。Cortex-M0+处理器只有一种异常用以
    的头像 发表于 10-14 10:50 3632次阅读
    Cortex-M0+<b class='flag-5'>处理器</b>的HardFault错误介绍

    AUDIO SoC的解决方案

    SoC(片上系统)是一种系统级集成电路。新唐科技的单芯片音频系统音频 SoC采用皮质-M0/M4内核,并采用Arm 皮质-M系列处理器的基本创新技术,包括∑△ADC、CODEC、OP、
    发表于 09-05 08:26

    德州仪器AM68x Jacinto 8处理器技术解析

    Texas Instruments AM68x 64位Jacinto™ 8 TOPS Vision SoC处理器款基于Eval Jacinto 7架构的可扩展处理器。该系列面向智能
    的头像 发表于 08-27 15:08 1331次阅读
    德州仪器AM68x Jacinto 8<b class='flag-5'>处理器</b>技术解析

    十万块颗的芯片值不值?ADM处理器CPU。#半导体#电子

    处理器
    芯广场
    发布于 :2025年05月26日 18:09:31

    nRF54系列新代无线 SoC

    Cortex-M33 处理器处理能力翻倍,处理效率提高两倍。 nRF54L 系列中的三款无线 SoC 提供多种内存大小选择,最大 1.5 MB NVM,最大 256 KB RAM,
    发表于 05-26 14:48