0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百核千核,服务器芯片多核才是王道?

E4Life 来源:电子发烧友网 作者:周凯扬 2022-06-01 00:05 次阅读

要说造芯这件事,不仅手机和汽车厂商热衷于此,如今服务器厂商也纷纷投入自研大军中来,无论是国内的阿里云,还是国外的亚马逊,在收购一大批芯片设计厂商网罗了一众芯片设计精锐后,也开始推出基于自己芯片的服务器,所用工艺也已经升级到了7nm和5nm。

此外,第三方服务器芯片厂商也顺势发力,打算为这些云服务厂商提供更高的吸引力,而不是让他们整天想着节省成本用自研方案替换掉自己的产品。好在大部分云服务厂商自研的芯片主要还是集中在AI加速芯片和网络芯片这一块,CPU很大一部分仍是第三方的地盘。而在第三方的CPU设计中,我们可以看到多核已经成了当下的主流方案。

多核云端更吃香?

首先我们来看最常见也最直接的一种提升性能方式,堆核心。这种操作我们已经在消费芯片或是各个电子产品的宣传术语中听得耳朵生茧了,且向来都是一种相当有效的性能提升方式。尽管则对芯片的面积限制较大,但不可否认的是,在对面积没那么看重的服务器市场上,走多核路线的芯片厂商越来越多。

AmpereComputing的AmpereAltra应该是国内出货量最高的Arm服务器CPU系列了,这款最高128核的处理器已经在不少云服务的实例上亮相。AmpereComputing与微软Azure和OracleCloud达成了合作,在中国不仅拥有阿里云、腾讯云、京东云和UCloud这些公有云客户,百度、美团和字节跳动等公司也在使用其产品。

AmpereAltraMax封装 / AmpereComputing


再来看看英伟达的ArmCPU Grace,虽然采用了Arm的Neoverse参考设计,但英伟达同样选了144核的多核心设计,那么为何多核在服务器上如此吃香呢?我们上面也提到了AmpereAltra在中国收获了不小的市场,其实归根结底就是其多核心数的功劳。

国内使用公有云的用户数远超国外,对于云服务厂商来说,这种多核处理器意味着可以将单服务器切分为更多的vCPU,也就意味着更多的可用实例。这还没完,以AmpereAltra为例,每个核心上只运行单个线程,这样即便多用户同时使用下,依然能够维持稳定的性能。

Ampere处理器路线图 / AmpereComputing


值得一提的是,Ampere近期发布了自研5nm处理器,AmpereOne,一个基于自研Arm核心的服务器处理器。这对于其他厂商来说或许无法实现,但Ampere作为Arm架构的授权商,是可以像高通、华为和苹果等厂商一样,开发定制自己的Arm核心的。

也或许是因为这次终于没有继续沿用ArmNeoverseN1或N2这样的参考设计,Ampere才将这一产品命名为AmpereOne。Ampere并没有公布这一产品的核心数,但从现有产品最小核心数也有32核的设计,以及AmpereOne实物图与AmpereAltraMax近似的封装来推断,这一新品追求的必然是更高性能的云原生应用,而不是面向只需较低核心数就能满足需求的边缘计算市场。

服务器AI芯片靠数量和能耗制胜

与处理器芯片处理通用计算的多核策略不同,AI芯片的多核主要还是提高AI计算效率,而且单核能效比和单位面积效率往往高于传统的处理器架构,导致核心数更多。以打造千核RISC-V AI芯片的Esperanto为例,其ET-SoC-1芯片基于台积电7nm打造,集成了1092个RISC-V核心。

ET-SoC-1芯片 / Esperanto


但就是这样一个千核芯片,却可以做到20W以内的功耗和570mm2的diesize。正因如此,即便单个ET-SoC-1的算力不及英伟达A100这类GPU,也可以凭借多块芯片组成的AI加速器板卡来实现同等的性能,甚至低上一大截的功耗。

对于依赖阵列乘法器这类专用硬件和少量CPU核心的芯片,一旦问题不能完全由专用硬件解决,就会把任务交给有限的通用CPU核心。而Esperanto的ET-SoC-1方案中,上千颗通用RISC-V核心带来的完全并行可以显著加快执行速度。何况哪怕相较于5nm而言,7nm的能效比也还是非常优异的,所以更适合这类超多核心数的设计,也更符合数字中心的低碳设计理念。

结语

有的读者可能会有疑惑,既然多核能给服务器芯片带来显著的提升,为何英特尔AMD这些x86服务器芯片厂商不设计百核以上的架构呢?这就与CISC与RISC架构的差异有关了,哪怕在同等工艺和同等核心数下,x86芯片的diesize也绝对要大于Arm和RISC-V芯片,而随着diesize的增加,芯片的良率也会一并减少。再者就是多核下的并行问题了,一些通用计算任务在多核下的并行执行效率并不高,而且会大幅提升复杂性。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    455

    文章

    50714

    浏览量

    423132
  • 服务器
    +关注

    关注

    12

    文章

    9123

    浏览量

    85322
  • 服务器芯片
    +关注

    关注

    2

    文章

    122

    浏览量

    19250
收藏 人收藏

    评论

    相关推荐

    高斯滤波的卷积怎么确定

    N为一个奇数,如3、5、7等。奇数大小的卷积有助于确定一个中心像素点,便于计算。 大小选择 :卷积的大小决定了滤波的范围。较大的卷积核可以覆盖更多的像素点,从而更好地平滑图像,但也可能导致图像细节丢失过多。因此,在
    的头像 发表于 09-29 09:29 483次阅读

    龙芯中科胡伟武:3B6600 八桌面 CPU 性能将达到英特尔中高端酷睿 12~13 代水平

    推出的桌面端 CPU 龙芯 3A6000,实测性能相当于英特尔公司 2020 年上市的第十代酷睿四处理;龙芯今年研制成功的16 及 32 版龙芯 3C6000
    发表于 08-13 11:16

    集特双路服务器GDC-2001介绍

    处理的峰值性能已经能与典型 ARM 64 处理的峰值性能相当 下面要给大家介绍的集特家族长江系列服务器新成员——GDC-2001服务器
    的头像 发表于 07-04 11:45 319次阅读
    集特双路<b class='flag-5'>服务器</b>GDC-2001介绍

    FPGA的IP软使用技巧

    的IP软 : 根据项目需求选择合适的IP软,如FIFO、RAM、FIR滤波、SDRAM控制、PCIE接口等。确保所选IP软核能够满足项目的功能需求。 注意IP软
    发表于 05-27 16:13

    RISC-V在服务器方面应用与发展前景

    RISC-V在服务器方面的应用与发展前景十分广阔。作为一种开源、开放、简洁、灵活的指令集,RISC-V近年来在芯片产业中发展迅速,并逐渐引领新一轮处理芯片技术与产业的变革浪潮。 在
    发表于 04-28 09:04

    多核架构高性能电机控制芯片

    基于传统单核架构的电机控制芯片已无法应对新出现的严峻挑战,多核架构的控制芯片应运而生。双架构芯片已在许多领域成功应用,并显示出其独特的优势
    的头像 发表于 04-19 14:46 8337次阅读
    <b class='flag-5'>多核</b>架构高性能电机控制<b class='flag-5'>芯片</b>

    配置一个边缘IO服务器服务器共有1-8个COM口,怎样的分配才是最高效的呢?

    在配置一个边缘IO服务器,此服务器共有1-8个COM口,将每两个COM口用来插DO板和DI板,共为四组,比如COM-1口可以和COM-2口为一组。本设备希望用DO板来控制DI板,故希望DO在发送数据时跟DI收到的数据一致,请问应该怎样以怎样的分配
    发表于 04-02 06:19

    linux服务器和windows服务器

    应用和企业环境中使用,那么Win dows服务器可能更适合你的需求。 综上所述,Linux服务器和Windows服务器各有优劣,选择适合自己需求的服务器操作系统是确保
    发表于 02-22 15:46

    TC275 TC1.6P 锁步(Checker)的功耗是非锁步分之多少呀?

    TC275 TC1.6P 锁步(Checker)的功耗是非锁步分之多少呀?
    发表于 02-06 07:36

    多核单片机中,静态局部变量需要划分分段信息吗?如何放到函数对应的ram中?

    请问在多核单片机中,静态局部变量需要划分分段信息吗?如何放到函数对应的ram中?
    发表于 02-06 06:29

    求助,在TASKING软件里如何建立多核工程并能实现3个运行?

    论坛里看到有基于BaseFramework框架的多核工程,但是怎么在TASKING里直接创建工程?我在TASKING里新建多核工程,并通过SoftwarePlatform插件代码生成来生成完整的各种
    发表于 02-05 09:09

    龙芯3C6000芯片流片交付,IO接口改进显著,支持32、64服务器

     据悉,龙芯 3C6000 已完成交付并开始量产。数据显示,该款芯片相较于现有的龙芯 3C5000 服务器产品,IO 接口有大幅度的改良与提升,通过龙链技术实现了“片间互联”,打破了处理
    的头像 发表于 02-03 10:12 1306次阅读
    龙芯3C6000<b class='flag-5'>芯片</b>流片交付,IO接口改进显著,支持32<b class='flag-5'>核</b>、64<b class='flag-5'>核</b><b class='flag-5'>服务器</b>

    芯互联发布高性能时钟发生CLG440

    芯互联近日发布了一款专为高性能服务器和计算中心应用打造的支持PCIe 6.0的高性能时钟发生——CLG440。这款产品符合CK440Q标准,旨在满足下一代服务器和数据中心的需求。
    的头像 发表于 01-16 16:09 1222次阅读

    芯互联推出支持PCIe Gen 6的时钟发生CLG440

    芯互联CLG440是一颗专为高性能服务器、计算中心应用推出的支持PCIe 6.0、符合CK440Q标准的高性能时钟发生
    的头像 发表于 01-16 15:57 967次阅读
    <b class='flag-5'>核</b>芯互联推出支持PCIe Gen 6的时钟发生<b class='flag-5'>器</b>CLG440

    GSC-210国产化海光双路服务器16

    服务器
    GITSTAR 集特工控
    发布于 :2024年01月13日 14:49:57