0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度揭秘:算力创新竞技的拓荒者

全球TMT 来源:全球TMT 作者:全球TMT 2023-10-25 18:25 次阅读

北京2023年10月25日/美通社/ -- 人工智能云计算、大数据等各类数字技术正在交织构建一个全新的虚拟空间,生产、流通、科学、教育、娱乐、社交等等无不因此而变。在技术驱动下,新的数字文明正勃然而兴,突飞猛进的算力变革则是这次文明迭代的重要驱动力之一。自计算机问世以来,在短短的70余年的时间内,其性能从最初的每秒5000次运算发展到如今超级计算机的每秒百亿亿次计算,性能激增数百万亿倍。即便如此,面对蓬勃兴起的生成式人工智能、元宇宙等技术,算力缺口依然巨大。

在浪潮信息,有这样一群工程师们,他们在好奇心的驱动下,通过各种方式寻找算力提升的路径,无论进步大小,自豪感都在驱使着他们继续探索未知,甚至像一个科学家一样琢磨各种跨界的技术,并用于解决各类工程难题。他们具有发散的思维,也有着聚焦的能力,凭借对算力创新的热情与追求,不断拓展数字文明的边界……。

112Gbps高速互连,服务器设计的“艺术”

Yang Yang,浪潮信息AI服务器工程师大军中的一员,他所在的团队负责进行AI服务器系统架构的研发工作,其中的关键是——设计开发出一款具备超高速互连性能的开放加速基板。

“以前,我们在强调怎么样去提高单颗芯片的算力。但是到了大模型时代,模型训练动辄成千上万张卡,单张芯片已经完全无法承载。在新的AI超级计算机形态下,什么样的互连架构才能更好的支撑大模型业务发展,是我们重点研究的一个课题。”Yang Yang认为,实现数千乃至上万颗芯片互连并让它们能够高效协同工作的前提,是解决单个服务器内部芯片的高速直连,这是一切问题的“原点”。

在他们团队的努力下,浪潮信息定义了业界第一个符合OAM(开放加速模块)规范的8卡互连AI系统,这是一个遵循开放计算标准的互连的基板,首次达到了业界最高的单通道速率56Gbps。这个基板的厚度仅为3.26mm,层数却高达22层,包含了近1000个高速互连差分对。

目前,56Gpbs仍然是开放加速规范下芯片互连的最高速率。Yang Yang表示:“下一步,我们将冲刺112Gbps单通道的高速互连通信,这种级别的速度提升,就相当于我们从5G时代跨步进入了6G时代。”

112Gbps高速互连技术难点在于,在物理尺寸近乎不变的情况下,要将GPU间的互连速率提升一倍,需要牺牲信噪比。而信噪比的降低带来的影响是巨大的,意味着112Gbps信号对于抖动和噪声的敏感程度更为强烈,即对于信道的串扰、SCD(信号在通过该通道时的差分能量变为共模能量的模态转化量,越低越好。)、PN Skew(内外线路不等长造成的传输差异)、ILD(损耗,线损/阻抗的影响程度,即漂移度)等指标的要求都更为严苛。

这不仅需要更高端的材料支撑,更考验设计的“艺术”。要知道,3-5mm厚度的基板实际上是采用叠层设计,往往包含了十几层甚至几十层PCB板(印刷电路板),每层厚度仅有100微米左右,与一张A4纸相当。而为了保证信号传输质量,每组线路均需要采用差分对设计,即采用长度相等、相位相反的互补信号来传输同一个信号,以减少噪音和EMI(电磁干扰),这将使得布线量增加一倍,对于本就信号布线密度近乎极限的基板来说,无疑是雪上加霜。并且,差分对走线的宽度和间距必须始终保持一致,当在基板上的障碍物,如过孔或较小的器件周围布线时,对设计能力的要求更高。

因此,112Gbps高速互连设计不仅需要寻找更低损耗的树酯、玻璃纤维及更平滑的铜箔,同时也要确保这些材料在加工之后能够符合可靠度的规范,设计与工艺复杂度极高。

在Yang Yang看来,112Gpbs高速互连技术既需要科学的发散,也要做到工程的收敛:通过科学的发散寻找创新的可能性,通过工程的收敛寻找“可行性”。创新的可能性空间包括了材料、工艺、方法、管理运营等等,而可行性则是寻找“最大化或最小化”,是寻找最优解的过程,“就像谈到利润,我们往往都会追求利润最大化而成本最小化,最大化与最小化在很多时候是统一的,目标是一致的。”

Yang Yang团队所从事的工作能够惠及数以百计的芯片创新公司以及更多数量的用户:借助标准化的、性能出色的开放加速基板,芯片公司可以快速的实现产品落地并持续迭代,而用户则可以使用统一的、开放的基础架构,根据业务需要配置不同类型的AI加速芯片,加快创新和创造更好的用户体验。

听音降噪,服务器优化的“浪漫”

一台服务器需要整合超过10000个零部件,其中包括50多类专用芯片;同时还涉及30多个技术方向,例如材料学、热力学、电池技术、流体力学、化学等一系列学科;此外,一台服务器里还会应用超过100种传输协议。在制造中,服务器需要经历30多道流程,使用100多种加工和制造工艺,并对200多个关键过程的控制点进行把控。

如何确保整个系统的可靠性,是一项非常精细且复杂的工程,每一个细节都关乎整体,甚至连声音,也会影响到服务器的可靠性。四五年前,相当数量的数据中心用户几乎都遇到了同一个问题:风扇转速越快,硬盘越有可能出现性能波动,严重时还会直接掉线。

“最开始以为振动是罪魁祸首,后来才发现声音才是始作俑者。”浪潮信息结构工程师Cathy Wang以女性特有的敏锐,创造出一种独属于工程师的“浪漫”——听音降噪。

团队针对硬盘性能失效问题做了大量的实验,发现风扇产生的噪音一旦达到120分贝,极易造成硬盘磁头偏移、读写效率下降,进而导致扇区失效乃至硬盘报废、服务器宕机。“在结构的领域来说有一个不可调和的矛盾,就是风扇的转速提高之后,它的噪音会向高频段以及大声压这个方向去发展,而且它是这个声音和转速是成5次方的关系在增长的,所以我们看到一个非常明确且快速的风扇的噪音增长的趋势。这个风扇和硬盘之间的冲突的问题,如何站在系统设计的角度,建立硬盘敏感度模型,成为业界厂商探讨的难点。”Cathy Wang介绍说。

不过,虽然找到了问题的根源,但解决问题的过程依然曲折。在尝试过正弦波、1/3倍频程等走不通的路径后,Cathy Wang所在的团队才找到了最合适的噪音带宽,并以混频、扫频的模式模拟出多样化的噪声源,能够测量硬盘在500Hz~10000Hz噪音刺激下的共振频率和声压阀值。基于大量机理性研究和测试,团队发现硬盘性能损失与声压强度间的数学规律,构建出业界首个硬盘敏感度模型,量化出不同硬盘受到各类噪声影响后的性能表现。

“我们希望通过我们的研究工作,让性能优化从经验主导变为科学主导,借助于不断完善的基础理论、工具与方法,针对特定问题形成标准方案并设计出新的可复用知识。”Cathy Wang说道。

wKgaomU47Q-AZb4aAADY9b6m0gM798.jpg


服务器里声音的“黑盒子”就这样被打开了。在确定机箱内真正影响硬盘工作的噪音频谱的基础上,浪潮信息的工程师对服务器系统展开全方位的优化设计。首先从噪声振动的源头入手,通过CFD流体动力学仿真改进风扇的叶片形态,抑制扇叶表面因涡流脱落形成的高频噪音;其次,在机箱内通过设计40多种歌院式的消音结构,有效消除特定的高频噪声;此外,还对硬盘固件中的伺服控制算法进行调整,让硬盘磁头的噪声共振摆动控制在10纳米以内,在提升读写效率、性能翻倍的同时,实现服务器安全运行。

融合架构3.0,服务器架构的“梦想”

大模型时代,当在单机上获得较高算力效率之后,能不能在几百个节点、几千块卡保持相对线性的性能扩展比,已经成为算力集群系统设计和并行策略设计时的关键性因素。在传统计算体系结构中,处理器横向扩展一直是难以突破的瓶颈,寻找新的出路势在必行。

浪潮信息体系结构工程师Lorne Ci认为:“传统服务器是把所有的IT资源放到一个服务器里面。如果需要更多算力、更多内存、更多IO的话,需要把服务器去做叠加,像我们通常意义上一个大规模的数据中心可能有十几万台,甚至有几十万台服务器。但简单的堆叠只能堆出各种形态和规格的服务器,这对数据中心计算能力的提升,并没有实质性的帮助。需要把服务器IT资源都做成池化的形态,然后通过软件定义的方式来实现资源的动态调配。”

因此,Lorne Ci团队研究的方向是,创造一种新的体系架构,将硬件设备中的同类资源整合成一个资源池,不同的设备能够任意的整合,再通过软件动态感知业务的资源需求,利用硬件重组的能力来满足各类应用的需要。

浪潮信息将这种新的体系架构命名为“融合架构”,早在2014年就提出这一技术理念,核心在于通过硬件解耦实现资源的物理池化和动态重构,通过软件定义实现业务感知的按需资源组合与配置,满足系统的弹性伸缩和超大规模的持续扩展,实现软硬高度协同发展。浪潮信息将融合架构的发展划分为三个阶段,分别为“服务器即计算机(Server as a Computer)”,“机柜即计算机(Rack as a Computer)”以及最终的“数据中心即计算机(Data Center as a Computer)”。

wKgZomU47Q-AHmBDAAB-PpBshRo940.jpg


目前融合架构3.0原型系统已经研制成功,实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,支持池化资源异步升级、支持细粒度多主机共享高并发存储、亚微秒级远端内存共享访问等特性,可通过软件定义实现“一套系统,N类应用”。

融合架构3.0最核心的就是要做到内存资源池的池化与算力资源池的池化。而如何实现远程内存的调用,实现低延时的快速响应,如何实现缓存一致性……都是内存池化面临的重大挑战。Lorne Ci介绍说,“现在融合架构基于许多开放总线技术,包括PCIE、CXL等等,共同构建一个大内存系统,构建了一个高速高性能的互联网络,这对于参数量和数据量激增的大模型训练有着巨大价值。”

伴随着融合架构3.0原型系统的研制成功,浪潮信息在融合架构领域完成了重要的突破,实现了整机柜级别的计算、内存、存储与互联等各种IT资源的池化。其中,内存解耦实现了亚微秒级的远端内存访问,并构建出了一种逻辑上可远端共享的内存资源池。这种变化让多台主机可以访问同一个内存池,并最终大幅提高了数据交换的效率。新的架构打破了现有服务器的逻辑架构与应用模式。它以系统设计为中心,可以让数据中心从资源驱动型向业务驱动型转变。面向云计算和人工智能等不同场景,这种新的架构和新的组合方式,让数据中心真正实现了,用一套系统去支撑多类应用。

在如今这个逐渐成型的数字文明时代,计算已经渗透到我们生活的方方面面。不论是在家庭中,商业世界,还是科学研究领域,计算技术都无处不在,这已经成为了我们日常生活的一部分。然而,我们必须认识到,这只是数字文明的起点,计算的重要性将在未来进一步凸显。算力创新将成为数字文明中的火种,它将不断照亮前行的道路。正如昔日的拓荒者冒险前行以开辟新的大陆,今天无数的"算力拓荒人"将持续引领我们进入数字时代的新境界。这些先锋者将科学与工程融合,将"知"与"行"完美结合,以探索广阔而充满想象的未知之地。

在这条通往数字文明的开拓之路上,充满了机遇与挑战,我们需要更多具备跨学科知识的"知行合一"的研发人员,科技工作者,去通过一系列前所未有的解决方案,将计算创新推向新的高度,使其持续闪耀,带领我们走向数字文明的下一个巅峰。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    9109

    浏览量

    85310
  • 算力
    +关注

    关注

    1

    文章

    960

    浏览量

    14786
收藏 人收藏

    评论

    相关推荐

    华为荣获2024年网络产业十大创新成果奖

    在2024中国信息通信大会期间,网络网一体创新发展分论坛成功举办。众多中国工程院院士、中国科学院院士、智网络领域的专家和学者共同探讨
    的头像 发表于 12-04 11:10 287次阅读

    九章云极DataCanvas公司「包」产品璀璨亮相2024中国大会!

    九章云极DataCanvas公司技术专家向与会详细介绍包的产品能力和创新模式,收获行业伙伴的高度认可。力作为AI时代的数字能源,将在
    的头像 发表于 09-29 14:44 771次阅读
    九章云极DataCanvas公司「<b class='flag-5'>算</b><b class='flag-5'>力</b>包」产品璀璨亮相2024中国<b class='flag-5'>算</b><b class='flag-5'>力</b>大会!

    九章云极DataCanvas包正式发布

    在数字化转型的浪潮中,九章云极DataCanvas再次引领创新,正式推出全新产品——“包”。这一
    的头像 发表于 09-26 14:58 393次阅读

    神州鲲泰亮相WAVE SUMMIT深度学习开发大会2024,以智能搭配大模型推动产业数智化变革

    解决方案,并展示最新的大模型一体机解决方案成果,与万千开发共同探讨并分享国产大模型在技术创新、产业应用、生态社区等方面的最新进展。 当前智能已经成为推动新质生产
    的头像 发表于 07-01 16:48 4.4w次阅读
    神州鲲泰亮相WAVE SUMMIT<b class='flag-5'>深度</b>学习开发<b class='flag-5'>者</b>大会2024,以智能<b class='flag-5'>算</b><b class='flag-5'>力</b>搭配大模型推动产业数智化变革

    得瑞领新邀您共赴多样性产业峰会2024,探讨未来新趋势

    多样性产业峰会2024将于6月18日在北京新青海喜来登酒店隆重举办。得瑞领新诚邀各界专业人士和行业领袖莅临参会,共同探讨前沿技术,分享创新成果,推动多样性
    的头像 发表于 06-14 10:42 308次阅读

    墨芯人工智能荣获“2024AI创新企业奖”

    近日,稀疏计算引领墨芯人工智能宣布,公司荣获由中国科技产业智库「甲子光年」主办的“甲子引力X:星辰100榜单”评选的“2024AI创新企业奖”。
    的头像 发表于 05-17 09:06 449次阅读
    墨芯人工智能荣获“2024AI<b class='flag-5'>算</b><b class='flag-5'>力</b>层<b class='flag-5'>创新</b>企业奖”

    摩尔线程张建中:以国产助力数智世界,满足大模型需求

    摩尔线程创始人兼CEO张建中在会上透露,为了满足国内对AI的迫切需求,他们正在积极寻求与国内顶尖科研机构的深度合作,共同推动更大规模的AI智集群项目。
    的头像 发表于 05-10 16:36 942次阅读

    揭秘芯片:为何它如此关键?

    在数字化时代,芯片作为电子设备的核心组件,其性能直接关系到设备的运行速度和处理能力。而芯片的,即其计算能力,更是衡量芯片性能的重要指标。那么,芯片的到底有什么用?
    的头像 发表于 05-09 08:27 979次阅读
    <b class='flag-5'>揭秘</b>芯片<b class='flag-5'>算</b><b class='flag-5'>力</b>:为何它如此关键?

    壁仞科技加入中国移动“融创未来”网络创新联合体

    近日,以“网络点亮AI新时代”为主题的2024中国移动网络大会在苏州举行。作为中国移动的
    的头像 发表于 04-30 09:36 927次阅读
    壁仞科技加入中国移动“融创未来”<b class='flag-5'>算</b><b class='flag-5'>力</b>网络<b class='flag-5'>创新</b>联合体

    力系列基础篇——101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么?那必须是:
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,能RADXA微服务器的具体规格: 处理器:BM1684X :高达32Tops INT8峰值 内存:16GB L
    发表于 02-28 11:21

    智能规模超通用,大模型对智能提出高要求

    电子发烧友网报道(文/李弯弯)是设备通过处理数据,实现特定结果输出的计算能力,常用FLOPS作为计量单位。FLOPS是Floating-point Operations Per Second
    的头像 发表于 02-06 00:08 6292次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    2024年趋势:网络、人工智能与6G技术的融合发展

    网络以“以网强”为核心,充分发挥我国基础网络优势,构建深度融合的新型信息基础设施,通过
    的头像 发表于 01-11 09:30 1240次阅读

    PS-9308ST五工位插拔试验机:揭秘工业品质的守护

    PS-9308ST五工位插拔试验机:揭秘工业品质的守护
    的头像 发表于 01-04 09:09 375次阅读
    PS-9308ST五工位插拔<b class='flag-5'>力</b>试验机:<b class='flag-5'>揭秘</b>工业品质的守护<b class='flag-5'>者</b>