0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

芯来科技正式发布首款专用处理器产品线Nuclei Intelligence系列

芯来科技 来源:芯来科技 2024-02-26 10:15 次阅读

本土RISC-V CPU IP领军企业——芯来科技正式发布首款针对人工智能应用的专用处理器产品线Nuclei Intelligence(NI)系列,以及NI系列的第一款AI专用RISC-V处理器CPU IP——NI900系列内核。

随着Chatgpt的横空出世,全球掀起一股AI的浪潮,从云端数据中心到边缘侧对AI的需求进一步提升。AI应用主要分布在训练和推理,需要大量的并行计算和NPU来完成,更离不开高性能CPU的算力加持。CPU有着广泛的普及性、兼容性、可扩展性和可靠性,并通过多核多节点进行串行计算、混合计算和安全防护等复杂任务;除此之外,CPU的通用矢量(Vector)指令集也可以提供强大且通用的并行计算能力,在AI领域进行高效的并行计算、前处理、后处理、激活函数等工作,更加灵活地处理GPU和NPU相对难以处理的复杂计算任务。

近期OpenAI发布的Sora模型将AI能够理解和生成的内容模态从文字和图片拓展到视频,进一步证明基础模型能力上限不断被突破,想象空间被打开,对算力基础设施的需求也远没有停止。芯来科技此次推出的NI900重点布局AI应用场景,助力本土芯片设计公司快速完成AI产品的设计。

NI900基于900系列处理器,针对“AI应用”进行了多项特性优化

基础标量处理器:

可以配置为900系列的RV32或RV64的任何一款N900、U900、NX900、UX900。

RVV1.0 VPU: 可配置基于RISC-V V Extension(RVV1.0 Vector指令集)的VPU单元,VPU的VLEN可配置为512-bit或者1024-bit。在INT8数据类型下对性能带来的提升达数百倍;在INT32与FP32数据类型下对性能带来的提升达数十倍。 NPU加速器:

可通过NI900的IOCP(IO Coherent Port)与处理器紧耦合,实现对CPU内部Cache的一致性。

用户自定义指令扩展接口: 用户可以使用Nuclei的NICE硬件扩展接口,增加自己自定义的指令,包括Scalar或Vector指令。

100a9910-d445-11ee-a297-92fbcf53809c.png

NI900支持RISC-VVector1.0标准

矢量扩展被称之为RV指令集标准最重要的一组扩展,2015年发起,2021年正式生成标准。

RVV 1.0支持的数据类型广泛,运算类型丰富且可动态扩展,同一套指令可无修改适配各种微架构实现。

RISC-V GCC从10.2版本已经支持RVV1.0指令,目前GCC13对应的intrinsic API接口已经升级到最新v0.12版本,且已部分支持自动向量化;预计GCC14正式发布,GCC的自动向量化会更加完备。RISC-V CLANG17版本也已支持最新v0.12版本intrinsic APl, 支持自动向量化。

RISC-V Linux 5.18 版本开始支持RVV,其它各种计算库及应用中间件都快速支持了RVV1.0。

有了RVV1.0标准和软件生态的完备,为应对AI算力的需求,需要RISC-V CPU 在微架构设计上做更多有针对性的设计。

NI900拥有强大的并行计算能力

RVV参数描述:

VLEN:一个向量寄存器的总bit数(宽度)

DLEN:内部运算单元能够并行处理的一个向量元素的最大bit数

ELEN:并行处理的数据类型的最大宽度,如果ELEN=32,则最大的处理数据类型是INT32和FP32

可配选项 参数值
VLEN_512 VLEN=512,DLEN=512,ELEN=32/64
VLEN_1024 VLEN=1024,DLEN=1024,ELEN=32/64

VPU支持的数据类型和计算能力:

1024-bit的VPU支持多种数据类型的计算,包括:INT8 / 16 / 32 / 64, BFP16 / FP16 / FP32 / FP64。

1024-bit的VPU支持每个时钟完成128x8-bit / 64x16-bit / 32x32-bit / 16x64-bit的数据计算

NI900拥有强大的Memory读写能力

10487c08-d445-11ee-a297-92fbcf53809c.png  

VPU和CoreLSU共享MMU资源

VPU并非独立的协处理器,而是与主Core的内存空间实现完全的Coherent

Vector指令与普通Scalar一样,支持虚拟地址访问,使得NI900的Vector指令可以无缝运行于大型操作系统之上

VPU和CoreLSU共享Memory资源与通道

VPU拥有最高512-bit位宽直接访问DCache

VPU拥有最高1024-bit位宽直接访问DLM

DLM具备1024-bit的SlavePort供SoC访问

可单独配置VLMport以进一步增加性能

VLMport可以直接连接到外部加速器或者内存

VLMport位宽=VLEN(目前支持最多1024-bit)

ScalarCore也可以通过LoadStore访问到VLM区间

NI900的VPU带来极大的性能提升

通过强大的运算能力与强劲的Memory读写通道,NI900能带来极大的并行计算性能提升。

如图所示,VLEN=1024-bit的VPU在INT8数据类型下对性能带来的提升达数百倍

105ec1b6-d445-11ee-a297-92fbcf53809c.png

106eb986-d445-11ee-a297-92fbcf53809c.png   107f51a6-d445-11ee-a297-92fbcf53809c.png

如图所示,VLEN=1024-bit的VPU在INT32数据类型下对性能带来的提升达数十倍

1091366e-d445-11ee-a297-92fbcf53809c.png

10a53948-d445-11ee-a297-92fbcf53809c.png

10b91e40-d445-11ee-a297-92fbcf53809c.png

如图所示,VLEN=512-bit的VPU在FP32数据类型下对性能带来的提升达数十倍

10d03b0c-d445-11ee-a297-92fbcf53809c.png

10db1720-d445-11ee-a297-92fbcf53809c.png

10e18da8-d445-11ee-a297-92fbcf53809c.png

10f8bf14-d445-11ee-a297-92fbcf53809c.png

NI900支持NPU等AI加速器与处理器紧耦合,实现对CPU内部Cache的一致性

NI900支持整合外部AI加速器、NPU、PCIe、DMA,通过900系列的IOCP(IO Coherent Port)与900系列处理器紧耦合,实现对CPU内部Cache的一致性。

110b0d86-d445-11ee-a297-92fbcf53809c.png

NI900的Scalar/VectorNICE自定义指令接口提供更多特定场景的优化可能性 NICE(Nuclei Instruction Co-unit Extension)是芯来CPU IP的一种用户可扩展指令接口机制,允许用户基于芯片的标准通用CPU内核定义自己的扩展指令集。

NI900提供用于Scalar指令扩展的NICE接口,可支持单周期,多周期,流水线等不同指令类型

NI900提供用于Vector指令扩展的NICE接口,可支持单周期,多周期,流水线等不同指令类型

NI900的NICE扩展单元不仅可以进行运算型的自定义指令扩展,还可以通过专用总线访问Core的存储资源(DCache等)实现与主Core的内存一致性,总线位宽可以达到VLEN(最高1024-bit)

用户可以结合自己的应用扩展自定义指令,将NI900处理器内核扩展成为面向AI领域进一步强化的专用处理器。

RISC-V生态日益成熟,芯来NI900赋能AI时代

CPU是算力结构中必不可少的一个环节,在已经到来的人工智能算力时代,通用和专用芯片结合而成的异构计算是未来AI算力基础设施的主流。芯来致力于提供标量、矢量、以及自定义指令结合的计算架构,以满足端侧云侧数据中心的多元化的算力需求。

目前NI900已经获得多家下游客户的认可并投入产品设计中,未来芯来将推出更多NI系列处理器内核IP,赋能AI时代的算力基础设施建设。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19404

    浏览量

    230994
  • 人工智能
    +关注

    关注

    1796

    文章

    47643

    浏览量

    239960
  • RISC-V
    +关注

    关注

    45

    文章

    2322

    浏览量

    46495
  • AI加速器
    +关注

    关注

    1

    文章

    69

    浏览量

    8671
  • 芯来科技
    +关注

    关注

    0

    文章

    62

    浏览量

    3070

原文标题:芯来科技发布最新NI系列内核,NI900矢量宽度可达512/1024位

文章出处:【微信号:nucleisys,微信公众号:芯来科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开先KX-7000处理器赋能升腾D410 2桌面终端产品

    基于开先KX-7000系列处理器,升腾可谓是“多路出击”,在推出P410 2桌面终端、W410 2桌面一体机两新品的同时,针对云终端产品线也快速响应,带来了全新升级的D410 2桌面
    的头像 发表于 01-21 16:28 214次阅读

    恩智浦i.MX 94应用处理器如何变革工业和汽车连接

    恩智浦半导体发布i.MX 94系列用处理器,为工业和汽车连接设定了新的标准。作为i.MX 9系列用处理器的最新成员,i.MX 94旨在提
    的头像 发表于 01-17 10:51 225次阅读

    恩智浦发布i.MX 94系列用处理器

    恩智浦半导体发布i.MX 9系列用处理器的新成员i.MX 94系列。该系列旨在用于工业控制、可编程逻辑控制
    的头像 发表于 11-26 17:48 796次阅读

    极海电机产品线再添新品,APM32M3514系列电机控制专用SoC正式发布!

    极海高集成、高性价比、高能效的电机控制专用SoC——APM32M3514系列,现已正式推出,为客户电机系统应用设计提供高性价比的系统集成,更丰富的
    发表于 10-09 11:09 1126次阅读
    极海电机<b class='flag-5'>产品线</b>再添新品,APM32M3514<b class='flag-5'>系列</b>电机控制<b class='flag-5'>专用</b>SoC正式<b class='flag-5'>发布</b>!

    OMAP5912应用处理器数据表

    电子发烧友网站提供《OMAP5912应用处理器数据表.pdf》资料免费下载
    发表于 08-07 09:16 0次下载
    OMAP5912应<b class='flag-5'>用处理器</b>数据表

    格见发布基于N300系列处理器内核的通用型实时工业控制DSP产品

    。GS32F003X系列内置的RISC-V内核基于科技N300系列RISC-V处理器内核深度定制,支持500+条RV32基础/扩展指令和
    的头像 发表于 08-06 15:56 1179次阅读
    格见<b class='flag-5'>发布</b>基于<b class='flag-5'>芯</b><b class='flag-5'>来</b>N300<b class='flag-5'>系列</b><b class='flag-5'>处理器</b>内核的通用型实时工业控制DSP<b class='flag-5'>产品</b>

    6nm异构多核!国内Arm架构AI PC处理器P1发布

    计算平台因此得到了广泛的关注。现在,国内公司也完成了Arm架构AI PC处理器“破冰”,开始扬帆启航。   7月30日,在以“从此出发”为主题的此科技AI PC战略暨
    的头像 发表于 08-01 01:21 4258次阅读
    6nm异构多核!国内<b class='flag-5'>首</b><b class='flag-5'>款</b>Arm架构AI PC<b class='flag-5'>处理器</b>此<b class='flag-5'>芯</b>P1<b class='flag-5'>发布</b>

    集成开发环境Nuclei Studio 2024.06版本发布

    为了优化Nuclei Studio的在性能调优方面的体验,以及引入商业工具链的支持,以及丰富基于Nuclei CPU/SoC IP的软件生态,让客户和开发者能够围绕Nuclei IP做出更完善的RISC-V软硬件一体化解决方案,
    的头像 发表于 07-15 16:15 847次阅读

    Microchip发布多核64位微处理器系列产品

    。PIC64GX MPU是即将发布的新产品系列中的产品,可支持工业、汽车、通信、物联网、航空航天和国防领域的智能边缘设计。
    的头像 发表于 07-11 10:31 744次阅读

    经纬恒润INTEWORK-EAS产品成功适配RISC-V处理器NA内核

    近日,经纬恒润AUTOSAR基础软件产品INTEWORK-EAS(ECU AUTOSAR Software,以下简称EAS)在提供的HP060开发板上成功适配
    的头像 发表于 03-29 14:38 1156次阅读
    经纬恒润INTEWORK-EAS<b class='flag-5'>产品</b>成功适配<b class='flag-5'>芯</b><b class='flag-5'>来</b>RISC-V<b class='flag-5'>处理器</b>NA内核

    科技推出1000系列,进一步开启了乱序高性能CPU的篇章

    本土RISC-V CPU IP领军企业——技正发布基于RISC-V指令集的高性能商业处理器CPU IP——UX1000
    的头像 发表于 03-18 10:02 1124次阅读
    <b class='flag-5'>芯</b><b class='flag-5'>来</b>科技推出1000<b class='flag-5'>系列</b>,进一步开启了乱序高性能CPU的篇章

    技正发布基于RISC-V处理器的HSM子系统解决方案

    本土RISC-V CPU IP领军企业——技正发布基于RISC-V处理器的HSM子系统解决方案,提供专业有效的信息安全保护以及加解密
    的头像 发表于 03-11 11:01 1497次阅读
    <b class='flag-5'>芯</b><b class='flag-5'>来</b>科<b class='flag-5'>技正</b>式<b class='flag-5'>发布</b>基于RISC-V<b class='flag-5'>处理器</b>的HSM子系统解决方案

    科技发布超低功耗嵌入式RISC-V处理器CPU IP—NS100系列内核

    本土RISC-V CPU IP领军企业——技正发布针对信息安全的超低功耗嵌入式RISC-V处理器CPU IP——NS100
    的头像 发表于 03-04 11:19 1490次阅读
    <b class='flag-5'>芯</b><b class='flag-5'>来</b>科技<b class='flag-5'>发布</b>超低功耗嵌入式RISC-V<b class='flag-5'>处理器</b>CPU IP—NS100<b class='flag-5'>系列</b>内核

    5G网络优化处理器和AI PC抢镜 英特尔携三大重磅产品线亮相MWC24

    此次在MWC24上,英特尔带来三大旗舰产品线:一、用于网络工作负载的未来Granite Rapids-D和Sierra Forest处理器;二、帮助运营商变现其边缘部署的英特尔边缘平台;三、用于商用AI PC的英特尔酷睿Ultra处理器
    的头像 发表于 02-29 15:16 4396次阅读
    5G网络优化<b class='flag-5'>处理器</b>和AI PC抢镜 英特尔携三大重磅<b class='flag-5'>产品线</b>亮相MWC24

    科技发布AI专用RISC-V处理器内核NI900系列

    在AI技术迅速发展的当下,RISC-V CPU IP领域的领军企业科技,正式发布了针对人工智能应用的专用处理器产品线——
    的头像 发表于 02-26 09:36 871次阅读