电子发烧友网报道(文/梁浩斌)今年火爆的AI应用也带火了数据中心市场,AI服务器需求暴增。不仅是AI大模型的规模在不断扩张至千亿级参数,还有越来越多不同类型的大模型训练和推理,都需要更强大的算力集群。
在一个多服务器构成的算力系统中,互连速率其实很大程度上决定着整个系统的性能上限,因此在片间互连方面,也开始采用CPO光电合封技术,将交换芯片和光电器件封装在一起,使得光电器件与芯片之间的数据传输损耗减小、提高传输速度。
但另一方面,由于半导体晶体管密度的提升速度放缓,单个计算节点中,比如单张AI加速卡上的芯片采用Chiplet技术成为了趋势,即多个小的“芯粒”封装在一起,通过互连组成一个整体的计算引擎。而为了提高chiplet设计的性能,芯片内部多个die之间的互连也非常关键。ONoC(Optical Network-on-Chip)片上光互连正是为了解决这个问题。
片上光互连:晶圆级的光互连网络
从结构上看,片上光互连其实是一种光子集成芯片技术,将不同功能的有源器件和无源器件集成在同一块光电基板上。光电基板上具有光子路由波导,这些波导被用于数据通信,和用于电路走线的多层金属层。CMOS电芯片堆叠在硅光芯片上,在光电基板上形成二维阵列。
光从基板上的激光光源中发出,输入到基板上的路由波导,通过波导到达光芯片上的调制器。这个时候电芯片上的信息数据,通过电芯片和光芯片之间的微凸块加载到环形调制器中,将数字1和0转换为光的强度差异。
调制后的光信号通过光电基板上的波导传播,到达其他光芯片上的光电探测器中。这个时候光信号就被转换成电信号,这些信息就被不同的电芯片所接收。
当然在实际应用中,每个CMOS芯片和光芯片之间,都有数以千计的微凸块被用于数据传输。因为光信号传播不需要铜导线,损耗小,延迟低,这样就实现了在光电基板上进行高能效、高带宽密度、低延迟的光互连。
从工作原理上看,其实可以大致分析出片上光互连的核心器件主要是激光器、调制器和接收器。要想提高片上光互连的传输容量,可以使用波分复用、偏振复用、模分复用等技术实现。
目前,针对单一物理维度光信号的复用、解复用设备已经相对成熟。为了进一步提高片上光互连系统的通道数量和传输容量,多种复用方式的综合运用成为了重要的研究趋势。例如,波长-偏振-模式混合复用等技术能够显著提升片上光互连系统的性能。此外,片上光互连架构的设计与选择对性能的提升也具有不可忽视的作用。片上光互连架构不仅决定了片上网络中不同节点的互连方式,同时也影响了路由器的端口数量和网络链路数量,进一步影响了网络的时延、功耗和可靠性等性能指标。
因此,综合运用多种复用方式并优化片上光互连架构是片上光互连发展的重要趋势。
距离落地应用还有多远?
目前片上光互连技术主要处于实验室阶段,还未大规模量产。业界的主要玩家包括一些高校和研究机构,比如美国加州大学圣巴巴拉分校、加州伯克利大学、荷兰的埃因霍温科技大学和特温特大学、美国集成光子制造研究所、中科院半导体所等。另外也有英特尔、曦智科技等厂商在推动相关技术的产业化。
英特尔在今年的Hot CHIPS会议上,展示了一款代号为“Piuma”的8核528线程处理器,而这款处理器的最大特点在于,采用了硅光子互连,能够提供1TB/s的光学带宽,可以将多达131,072个芯片连接在一起,形成一个大型共享内存的图形处理超级计算机。
在Piuma组成的超级计算机中,路由器就是网络,所有设备都通过 HyperX 拓扑进行连接,每个机架内将有16个Piuma芯片。不过英特尔目前还未决定Piuma芯片是否会进行商业化,他们表示,如果有客户提供资金支持,公司将会很乐意生产这款产品。
曦智科技近几年一直在片上光互连技术上努力推进商业化,今年HiPChips会议上,曦智科技展示了其片上光互连技术上的最新进展,该系统的通道数为512,单通道最长广播距离为50mm,广播延时1ns,单通道频率4GHz,片上总带宽达到2Tbps。实测数据显示,该计算系统完成多个计算核之间All-to-All的数据广播,这将大幅提高每个计算核的算力利用率。
而基于该片上光互连技术,曦智科技正在推动第一款商用级光电混合计算加速卡的商业化落地,未来将搭载曦智科技自研软件栈,在商用场景下发挥片上光互连低延迟、低功耗的优势。
小结:
在芯片受限于制程工艺、晶体管密度提高放缓的情况下,通过芯粒的设计将多个die封装在同一基板上成为了突破单芯片性能的一条重要路线。而这条路线的关键在于片上互连技术的发展,片上光互连技术也为未来的chiplet设计路线提供了更多的可能。
在一个多服务器构成的算力系统中,互连速率其实很大程度上决定着整个系统的性能上限,因此在片间互连方面,也开始采用CPO光电合封技术,将交换芯片和光电器件封装在一起,使得光电器件与芯片之间的数据传输损耗减小、提高传输速度。
但另一方面,由于半导体晶体管密度的提升速度放缓,单个计算节点中,比如单张AI加速卡上的芯片采用Chiplet技术成为了趋势,即多个小的“芯粒”封装在一起,通过互连组成一个整体的计算引擎。而为了提高chiplet设计的性能,芯片内部多个die之间的互连也非常关键。ONoC(Optical Network-on-Chip)片上光互连正是为了解决这个问题。
片上光互连:晶圆级的光互连网络
从结构上看,片上光互连其实是一种光子集成芯片技术,将不同功能的有源器件和无源器件集成在同一块光电基板上。光电基板上具有光子路由波导,这些波导被用于数据通信,和用于电路走线的多层金属层。CMOS电芯片堆叠在硅光芯片上,在光电基板上形成二维阵列。
光从基板上的激光光源中发出,输入到基板上的路由波导,通过波导到达光芯片上的调制器。这个时候电芯片上的信息数据,通过电芯片和光芯片之间的微凸块加载到环形调制器中,将数字1和0转换为光的强度差异。
调制后的光信号通过光电基板上的波导传播,到达其他光芯片上的光电探测器中。这个时候光信号就被转换成电信号,这些信息就被不同的电芯片所接收。
当然在实际应用中,每个CMOS芯片和光芯片之间,都有数以千计的微凸块被用于数据传输。因为光信号传播不需要铜导线,损耗小,延迟低,这样就实现了在光电基板上进行高能效、高带宽密度、低延迟的光互连。
从工作原理上看,其实可以大致分析出片上光互连的核心器件主要是激光器、调制器和接收器。要想提高片上光互连的传输容量,可以使用波分复用、偏振复用、模分复用等技术实现。
目前,针对单一物理维度光信号的复用、解复用设备已经相对成熟。为了进一步提高片上光互连系统的通道数量和传输容量,多种复用方式的综合运用成为了重要的研究趋势。例如,波长-偏振-模式混合复用等技术能够显著提升片上光互连系统的性能。此外,片上光互连架构的设计与选择对性能的提升也具有不可忽视的作用。片上光互连架构不仅决定了片上网络中不同节点的互连方式,同时也影响了路由器的端口数量和网络链路数量,进一步影响了网络的时延、功耗和可靠性等性能指标。
因此,综合运用多种复用方式并优化片上光互连架构是片上光互连发展的重要趋势。
距离落地应用还有多远?
目前片上光互连技术主要处于实验室阶段,还未大规模量产。业界的主要玩家包括一些高校和研究机构,比如美国加州大学圣巴巴拉分校、加州伯克利大学、荷兰的埃因霍温科技大学和特温特大学、美国集成光子制造研究所、中科院半导体所等。另外也有英特尔、曦智科技等厂商在推动相关技术的产业化。
英特尔在今年的Hot CHIPS会议上,展示了一款代号为“Piuma”的8核528线程处理器,而这款处理器的最大特点在于,采用了硅光子互连,能够提供1TB/s的光学带宽,可以将多达131,072个芯片连接在一起,形成一个大型共享内存的图形处理超级计算机。
在Piuma组成的超级计算机中,路由器就是网络,所有设备都通过 HyperX 拓扑进行连接,每个机架内将有16个Piuma芯片。不过英特尔目前还未决定Piuma芯片是否会进行商业化,他们表示,如果有客户提供资金支持,公司将会很乐意生产这款产品。
曦智科技近几年一直在片上光互连技术上努力推进商业化,今年HiPChips会议上,曦智科技展示了其片上光互连技术上的最新进展,该系统的通道数为512,单通道最长广播距离为50mm,广播延时1ns,单通道频率4GHz,片上总带宽达到2Tbps。实测数据显示,该计算系统完成多个计算核之间All-to-All的数据广播,这将大幅提高每个计算核的算力利用率。
而基于该片上光互连技术,曦智科技正在推动第一款商用级光电混合计算加速卡的商业化落地,未来将搭载曦智科技自研软件栈,在商用场景下发挥片上光互连低延迟、低功耗的优势。
小结:
在芯片受限于制程工艺、晶体管密度提高放缓的情况下,通过芯粒的设计将多个die封装在同一基板上成为了突破单芯片性能的一条重要路线。而这条路线的关键在于片上互连技术的发展,片上光互连技术也为未来的chiplet设计路线提供了更多的可能。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
光互连
+关注
关注
0文章
10浏览量
7790
发布评论请先 登录
相关推荐
【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片CPU
。
█在算力芯片设计中,芯片拓扑(Topology)结构非常重要。
●环形(Ring)拓扑方式是一种将多个处理单元连接成环形结构的
发表于 10-20 12:03
《算力芯片 高性能 CPU/GPU/NPU 微架构分析》第1-4章阅读心得——算力之巅:从基准测试到CPU微架构的深度探索
的支持。现代CPU的设计不仅注重性能的提升,还特别关注能效比和灵活性,以适应不断变化的计算需求。算力芯片的发展史,某种程度上就是人类智慧的结晶。从单一的算术逻辑单元到复杂的超标量处理器
发表于 10-19 01:21
【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览
经典 GPU 算力芯片解读
10.1 NVIDIAGPU芯片
10.2 AMDGPU芯片
10.3 IntelXeGPU架构
10.3.4
发表于 10-15 22:08
名单公布!【书籍评测活动NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架构分析
力,在全球范围内,对于推动科技进步、经济发展及社会整体的运作具有至关重要的作用。随着信息技术的高速发展,高性能计算(HPC)和人工智能(AI)等技术在多个领域的应用变得日益广泛,芯片算
发表于 09-02 10:09
大模型时代的算力需求
现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的算力,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
发表于 08-20 09:04
中国算力中心市场持续增长,智能算力规模快速崛起
7月24日,中国信息通信研究院(简称“中国信通院”)权威发布了《中国算力中心服务商分析报告(2024年)》,该报告深入剖析了中国算力中心市场的现状与
芯耀辉科技解读高速互连对于AI和大算力芯片而言意味着什么?
近年来,随着人工智能技术的迅猛发展,大算力芯片已成为推动AI技术创新的关键力量。然而,随着芯片内部计算单元数量的增加和任务复杂度的提升,
芯砺智能Chiplet Die-to-Die互连IP芯片成功回片
芯砺智能近日宣布,其全自研的Chiplet Die-to-Die互连IP(CL-Link)芯片一次性流片成功并顺利点亮。这一重大突破标志着芯砺智能在异构集成芯片领域取得了领先地位,为人
评论