0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

20exaflops算力只有鞋盒大小,靠CMOS技术就能实现的超导处理器

E4Life 来源:电子发烧友 作者:周凯扬 2024-05-29 01:14 次阅读

电子发烧友网报道(文/周凯扬)随着摩尔定律失效,高性能计算芯片的规模进一步扩大,数据中心集群庞大的功耗已经成为我们不得不面临的问题。早在2015年SIA的预测中,到2040年全球计算资源的能源供给就不再具有可持续性,而如今随着人工智能的爆发,计算资源的需求更是猛涨。

以用于训练AI大模型的计算资源为例,每六个月翻倍的速度已经远超高性能计算集群的组建速度。无需等到2040年,到了2030年训练单个大模型所需的资源就将超过TOP500所有超算的算力总和,而所需要的电力供应也将达到国家级。解决能源可持续的问题已经避无可避了,但除非我们放缓发展速度,或是颠覆计算方式,是很难实现这一目标的。

对于应用层还没进入商业模式成熟和完全盈利的人工智能来说,放缓发展速度自然是不可取的。那么也就只剩下颠覆计算方式一途,而大幅降低能耗的超导计算,也就理所当然地成了多数研究的重点方向。

显著降低功耗,最大开销成为冷却

2020年,日本国立横滨大学的一个研究小组就展示了一个超导CPU,并成功实现了流片。该处理器主要采用约瑟夫森结架构打造,这是一种经典的超导三层器件架构,也是超导逻辑单元中取代晶体管的基础元件。因为其独特的物理特性,该器件工作时的开关功耗只有10-21J左右,这样一来动态功耗相比传统CMOS器件极大降低,加之超导体无电阻的特性,静态功耗无限趋近于零。

超导体的出现为降低功耗提供了最大的可能性,因为其在通过电流时并不会消耗能量。最大的能耗开支莫过于需要在低温下工作的冷却方案供电,比如超导芯片的处理单元,往往需要低至4K的冷却温度。但即便如此,几乎零电阻的互联、基于超短脉冲构建的数字逻辑,都为现代计算资源大规模扩展提供了足够的优势。

而且随着计算资源规模的扩大,冷却方案开销的边际成本也会越小,据imec研究表明,一旦达到数十petaflops,超导计算机相比传统的计算机就要节能了,而这样的算力要求,TOP500中排名前30的超算已经可以做到了。

而Imec近期发布了他们采用标准CMOS工艺制造的超导计算单元,基于该技术打造的处理器能效将是当下最高效芯片的100倍,甚至可以将一个数据中心级别的计算资源塞进鞋盒大小的系统中。

将超导带出实验室的方法——兼容现有的CMOS制造技术

尽管超导可以降低功耗提高计算密度,但对于目前的大部分研究来说,都只停留在实验室阶段,要想真正实现大规模量产无异于痴人说梦。比如上文提到的横滨国立大学超导CPU,就是基于超导铌实现的,这种材料在可预测的实验室环境中表现良好,但要想用于制造工艺中就存在不少难题了。

铌对传统半导体加工温度及其周围材料都很敏感,一加热就会失去超导能力,因此与标准CMOS工艺流程不兼容。为此,imec改用了氮化铌钛作为基础超导材料。氮化铌钛可以承受CMOS制造工艺所用的温度,而且与周围层的反应较少。

同时imec还为约瑟夫森结的势垒层选择了一个新材料,无定形硅。传统的约瑟夫森结势垒层材料,比如氧化铝等,可以在可控的条件下生长,但为了达到远高于CMOS工艺芯片的密度,就必须进一步压缩其厚度,可这么薄的氧化物已经到了无法制造的程度。无定形硅的出现,则允许使用更厚的势垒层,实现210nm这样的临界尺寸。

在电路层面,同样需要对逻辑和存储结构重新设计。Imec设计出了一种全新的逻辑架构,名为脉冲守恒逻辑,输入和输出的数量保持一致,且SFQ(单通量量子)的总数保持守恒。通过不同约瑟夫森结和电容的组合将SFQ引导至不同输出,从而产生我们常见的逻辑OR和AND。在Imec的设计中,SRAM也是基于约瑟夫森结重新设计的,不过DRAM还是采用传统的硅工艺,但也需要从室温降低至77K的低温环境,用于提高效率。

鞋盒大小的数据中心,也需要3D堆叠实现

在基于CMOS工艺打造的数字芯片上,随着缩小晶体管变得越来越困难,我们已经开始广泛利用3D堆叠技术提高性能。但由于芯片内部的超大功率和热量,堆叠方案已经逐渐面临更大的挑战,如何做好散热成了多数3D堆叠方案必须解决的首要问题。

对于基于超导体的芯片设计而言,同样可以借助3D堆叠来实现更高的密度。结合硅中介层和玻璃基板这样的先进封装技术,将超导处理单元与嵌入式超导SRAM和DRAM堆叠在一起。芯片的大部分都将浸没在液氮中,冷却至4K。

在imec的模拟中,他们将100块超导体芯片板打造堆叠在一起,中间只留出极小的空间,整个系统的体积大小只有20x20x12厘米,与一个鞋盒大小近似。但正是这样一个鞋盒大小的系统,总功耗只有500kW,却可以提供将近20exaflops(BF16)的算力。

而这仅仅是Imec路线图中第一套方案,在后续的产品中,会进一步缩小约瑟夫森结和互联的尺寸。未来通过进一步提高逻辑芯片的密度,芯片板的数量也会随之减少,这样提高性能的同时,也会降低工艺复杂性和成本。

写在最后

尽管超导计算让我们看到了可行的技术路线,但即便是imec也不认为超导数据技术会取代传统的CMOS计算,而只是作为部分特定应用补充。这一技术的主要应用场景还是在大型的数据中心,为人工智能和机器学习处理提供基于云端的训练推理等,因为只有这样的环境内才能有条件实现超导所需的冷却技术。在消费电子领域,传统的CMOS硅工艺依然不可取代。

值得一提的是,这一技术与Imec基于CMOS制造工艺的超导量子比特技术同样可以做到无缝集成,可以说是电子计算与量子计算的完美结合。但即便搞定了基础材料工程设计,以及架构的设计,还有电路开发设计这一环目前没有打通,需要EDA厂商为其开发特定的流程工具。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19155

    浏览量

    229040
  • CMOS
    +关注

    关注

    58

    文章

    5675

    浏览量

    235104
  • 算力
    +关注

    关注

    1

    文章

    925

    浏览量

    14732
收藏 人收藏

    评论

    相关推荐

    基础篇:从零开始了解

    即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理实现结果输出的一种能力。虽然处理
    的头像 发表于 11-15 14:22 251次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基础篇:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    、GPU、NPU,给我们剖析了芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解芯片。 全书共11章,
    发表于 10-15 22:08

    名单公布!【书籍评测活动NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架构分析

    社会资源和资本力量关注芯片的发展,希望我们的国家能够更独立自主地设计制造高性能芯片。 内容简介: 本书介绍了超级计算机
    发表于 09-02 10:09

    的分类与现代生活

    的提升使得用户能够享受到更加流畅和丰富的数字体验。 个人通常指的是个人使用的计算设备,如智能手机、个人电脑、平板电脑等。这些设备通过中央处理器(CPU)和图形
    的头像 发表于 08-26 15:05 167次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>的分类与现代生活

    用ARMxy ARM工业控制自带的1Tops实现高性能图像处理

    ARMxy ARM工业控制凭借其强大的性能、灵活的配置和高度集成的特性,尤其是其内置的1TopsNPU(神经网络处理单元),在图像识别领域展现出了良好的
    的头像 发表于 08-20 11:55 356次阅读
    用ARMxy ARM工业控制<b class='flag-5'>器</b>自带的1Tops<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>实现</b>高性能图像<b class='flag-5'>处理</b>

    服务为什么选择GPU

    随着人工智能技术的快速普及,需求日益增长。智中心的服务作为支撑大规模数据处理和计算的核心
    的头像 发表于 07-25 08:28 491次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>服务<b class='flag-5'>器</b>为什么选择GPU

    IaaS+on+DPU(IoD)+下一代高性能底座技术白皮书

    、VMware、Palo Alto 等公司纷纷推出相关解决方案。这些方案背后共同的本质思想是:将云计算的 IaaS 层组件从服务侧卸载后围绕 DPU 构筑高性能底座,与 AWS、阿里云的
    发表于 07-24 15:32

    imec推出超导处理器,基于现有的CMOS制造工具

    近日,IEEE Spectrum刊文指出,比利时imec微电子研究所在现有的CMOS制造工具基础上,成功研发出超导处理器。该超导处理器主要借
    的头像 发表于 05-27 17:52 723次阅读

    中国第三代自主超导量子计算机“本源悟空”入驻国家超互联网

    中国第三代自主超导量子计算机“本源悟空”日前正式入驻国家超互联网平台,中国最先进的量子、超级
    的头像 发表于 04-04 08:21 287次阅读
    中国第三代自主<b class='flag-5'>超导</b>量子计算机“本源悟空”入驻国家超<b class='flag-5'>算</b>互联网

    256Tops!CSA1-N8S1684X服务

    (基于BM1684X的高服务)高AI处理器BM1684X搭载了BM1684AI
    的头像 发表于 03-23 08:02 1425次阅读
    256Tops<b class='flag-5'>算</b><b class='flag-5'>力</b>!CSA1-N8S1684X<b class='flag-5'>算</b><b class='flag-5'>力</b>服务<b class='flag-5'>器</b>

    智能规模超通用,大模型对智能提出高要求

    电子发烧友网报道(文/李弯弯)是设备通过处理数据,实现特定结果输出的计算能力,常用FLOPS作为计量单位。FLOPS是Floating-point Operations Per S
    的头像 发表于 02-06 00:08 6070次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    大升级 英特尔至强可扩展处理器持续技术创新

    过去半年中,随着大模型产品的爆发,AI带来的变革已经逐渐凸显。承载着AI的研究和应用,其格局变化尤为明显。 2023年,生成式AI研究和应用的爆发给云计算产业带来了全新的机遇和挑战:大模型需要
    的头像 发表于 12-29 14:32 375次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>大升级 英特尔至强可扩展<b class='flag-5'>处理器</b>持续<b class='flag-5'>技术</b>创新

    一文读懂:什么是“”?

    的定义即计算能力(ComputingPower)。《中国白皮书(2022年)》将其定
    的头像 发表于 12-22 08:27 6782次阅读
    一文读懂:什么是“<b class='flag-5'>算</b><b class='flag-5'>力</b>”?

    RK3588处理器YNH-730 AI盒子规格书-V1

    RK3588处理器YNH-730 AI盒子规格书-V1
    发表于 12-11 10:46 2次下载