0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔第一超算Aurora:峰值性能达2百亿亿次,拥有世界最大GPU集群

looger123 来源: looger123 作者: looger123 2023-08-29 15:29 次阅读

Aurora是Intel近年来参与的最受期待和最引人注目的项目之一,它是对Intel整个系统组合的大胆投注。预计这台机器将是首台峰值性能达到2 exaflops(2x10^18)浮点运算每秒的超级计算机。

作为位于伊利诺伊州阿贡国家实验室的Aurora超级计算机的首席架构师和首席研究员,Olivier Franza在实现这一最具雄心的科学仪器中发挥了领导作用,更不用说它还是世界上最大的GPU集群了。

这给了Franza一些压力,他是Intel的22年资深员工,2016年作为系统硬件架构师加入Aurora项目,并监督向基于GPU的机器的转变,于2021年成为首席架构师。

Franza解释说:“首席架构师负责根据客户的高级要求定义超级计算机的整体系统架构。有一些基本的要求,如总体性能指标和功率范围,但也有如RAS——可靠性、可用性、可维护性——这些对构建可扩展系统至关重要的内在特性。”

他的职责还包括从节点到机架到完整系统的系统拓扑的细节,包括其网络结构和存储组件。

路线图枢轴为塑造未来产品提供了机会

初始规划开始时,Aurora作为美国能源部赞助的系统,其设计由一系列Intel技术组成。然而,Intel产品路线图的变化,特别是Xeon Phi和Omnipath产品家族的结束,需要重新开始。当Intel制定了构建数据中心GPU的计划时,Franza参与了Intel® 数据中心GPU Max系列(代号Ponte Vecchio)的设计讨论。

从这个角度看,Aurora不仅仅是一个独立的系统。相反,它帮助塑造了Intel整体的策略和产品组合,以在最高级别解决规模和性能问题。

Franza表示:“我们将所有Aurora系统级的要求融入到组件级。”

例如,Intel Xeon CPU Max系列与高带宽内存的架构和概念,起初是由一些来自Intel Xeon Phi平台的特性产生的,这是第一个集成了高带宽和高容量的创新内存架构的产品。

此外,对高性能的需求进一步推动了所有子系统的进步,从计算刀片的热机械解决方案到其高密度物理集成,到存储。

Franza表示:“Intel构建了一个全新的存储概念,DAOS(分布式异步对象存储)。” 这是一个开源软件生态系统,用于在传统硬件上实现高速存储。“Aurora将是第一个使用它的系统,而且是迄今为止最大的。”

从设计组件到将数千个系统连接在一起

Aurora项目推动了系统级思考和Intel内部各个业务部门之间的广泛合作,以及与阿贡科学家和项目的另一个主要合作伙伴惠普企业的工程师的合作。

Franza表示:“让整个团队齐心协力、交付像Aurora这样的机器,对我们许多人来说,是一生中只有一次的经历。”

尽管工程师们在六月份安装了最后的刀片,但Franza仍在夜间继续进行该项目,因为系统正经过测试、稳定和验证的阶段。

他为一个大团队提供指导,该团队正在进行系统启动、验证、稳定、优化和使全系统性能工作负载启用的工作。最值得注意的是High Performance Linpack(HPL)基准测试,该测试确定了世界上的顶级系统,由半年度Top500名单认证

Franza每天早上参加每日站会,仔细检查每个节点的夜间运行,并制定第二天和未来工作的计划。每天下午,一个每日总结会议总结了进展和障碍。工作永无止境;机器始终运行。

他解释说:“我们采取逐步方法,在大规模上进行验证和稳定。” “你从刀片开始,然后移到机架,然后是多个机架,然后从那里扩展。”

Aurora 由 10,624 个计算刀片组成,在 166 个机架上拥有 63,744 个 Intel Max 系列 GPU(GPU 数量比世界上任何其他系统都多)和 21,248 个 Intel Xeon Max CPU。

他说:“它的大小相当于四个网球场,听起来很多,对吧?” “但只有当你真正去看它时,你才会意识到这个项目的巨大规模。”

Franza必须确保这个庞大的系统是稳定的、功能正常的和高效的。这是一个艰巨的任务,但终点即将到来。

他说:“走在过道上,所有的灯都亮着,感觉到机器正在运行是令人印象深刻的,显然也是非常有成就感的。” “这是一个显而易见的成就。”

“一生一次”的努力,塑造科学的超级计算机

使他继续前进的是建造“一个非凡的机器”的机会,这将为有影响力的研究提供动力。他引用了Aurora在癌症研究方面的巨大潜力作为项目将造福我们所有人的一个领域。

他说:“我认为这是使我们非常自豪的一件事。”

Aurora不仅将致力于解决世界上最复杂的科学和工程问题,它还将是一个理想的平台,用于运行生成式AI并将其应用于研究。“它将启用计划中最大的大型语言模型,即1万亿参数的Aurora GenAI项目,增强、启用并简化科学家的生活,”Franza说。

但他最享受的是团队合作和友情。

他说:“这是一个持续的努力,需要很大的毅力。” “核心团队保持了马拉松的心态,直到结束都不结束。我们需要那种能够长时间有效地关注某件极具挑战性的事情的人。最后,所取得的成就是很少有人可以说他们取得过的。”

文章来源:半导体行业观察

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9903

    浏览量

    171552
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4704

    浏览量

    128735
收藏 人收藏

    评论

    相关推荐

    英特尔12月或发布Battlemage GPU芯片

    近日,有关英特尔即将在12月发布全新Battlemage GPU芯片的传闻再次被证实。据硬件挖掘者和泄密者Tomasz Gawrońsk分享的预告图显示,英特尔极有可能在AMD RDNA 4和英伟
    的头像 发表于 11-19 17:37 339次阅读

    英特尔联合中科创构建下代智能座舱平台

    近日,英特尔 AI 座舱暨车载独立显卡发布会在深圳盛大举行。英特尔震撼发布其首款车载独立显卡 dGPU,旨在为 AI 座舱的广泛普及筑牢澎湃的力基石。作为英特尔的战略合作伙伴,中科创
    的头像 发表于 11-17 11:11 437次阅读

    Inflection AI转向英特尔Gaudi 3,放弃英伟GPU

    近日,人工智能技术公司Inflection AI宣布了项重要决策,其最新的企业平台将放弃采用英伟(Nvidia)的GPU,转而选择英特尔的Gaudi 3加速器。
    的头像 发表于 10-10 17:21 443次阅读

    曝Apollo拟向英特尔投资50亿美元

    资产管理巨头Apollo近日透露出对科技巨头英特尔的浓厚兴趣,计划进行笔高达50亿美元的股权投资,这数字约占英特尔当前市值(931.9
    的头像 发表于 09-24 11:38 344次阅读

    传高通向英特尔发出整体收购邀约,后者市值900亿美元

    目前尚未同意任何此类提议。即使英特尔接受高通的报价,如此规模的交易也会受到反垄断审查。   目前,英特尔市值高达933亿美元,高通公司的市值为1881亿美元。如果并购真的完成,将成为有
    的头像 发表于 09-21 11:43 3099次阅读

    英特尔发布第一代车载锐炫独立显卡

    英特尔震撼发布其第一代车载英特尔锐炫独立显卡,标志着智能座舱技术迈入全新阶段。这款显卡平台力高达229TOPS,不仅支持多达8块独立显示屏,更可流畅播放4K高清内容,为用户带来前所未
    的头像 发表于 08-09 14:54 477次阅读

    预定下代第一?富士通144核Arm处理器公开

    设计A64FX SoC,整个集群峰值性能可以达到537.21PFlop/s。如此强大的性能
    的头像 发表于 06-24 00:26 2709次阅读
    预定下代<b class='flag-5'>超</b><b class='flag-5'>算</b><b class='flag-5'>第一</b>?富士通144核Arm处理器公开

    英特尔发布AI创作应用AI Playground,将于今夏正式上线!

    和后续推出的下英特尔锐炫独立显卡(代号为Battlemage)产品线。新英特尔Xe2 GPU
    的头像 发表于 06-14 09:44 430次阅读
    <b class='flag-5'>英特尔</b>发布AI创作应用AI Playground,将于今夏正式上线!

    英特尔逐步停止Ponte Vecchio GPU生产,专注于Gaudi 2/3产品

    这款GPU英特尔在2022年正式宣布推出的,它拥有超过1000亿个晶体管,旨在推动公司进入更广泛的AI和高性能计算领域。
    的头像 发表于 05-15 10:20 402次阅读

    英伟、AMD、英特尔GPU产品及优势汇总

    主导地位,其销售额预计将达到400亿美元,远超过竞争对手AMD和英特尔。那么这三家公司都有哪些GPU产品,各自的产品有何优势呢?   英伟                      
    的头像 发表于 05-10 00:59 4869次阅读

    英特尔Q1营收127.2亿美元 同比增长9%

    英特尔Q1营收127.2亿美元 同比增长9% 根据英特尔公司公布的财报数据显示,英特尔公司在24年第一财季营收127.2
    的头像 发表于 04-26 16:18 788次阅读

    英特尔宣布代工亏损70亿美元

    美元; 英特尔芯片制造业务在2022年营收274.9亿美元,亏损70亿美元; 英特尔CEO帕特·基辛格还预测2024年将是英特尔芯片制造业务
    的头像 发表于 04-03 17:36 1249次阅读

    英特尔:2025年全球AIPC将1亿台占比20%

    英特尔行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年02月29日 09:15:26

    美国拟为英特尔提供百亿美元补贴

    美国政府正在与英特尔公司进行深入谈判,计划向其提供超过100亿美元的补贴,以推动其半导体制造业的发展。这补贴方案可能包括贷款和直接赠款等多种形式,旨在增强英特尔在全球半导体市场的竞争
    的头像 发表于 02-18 17:35 728次阅读

    英特尔或可以拿到百亿美元补贴

    英特尔或可以拿到百亿美元补贴 据彭博社的爆料,美国为引导半导体制造业的回归,目前正在就向英特尔公司提供超过100亿美元(换算下来约人民币7
    的头像 发表于 02-18 11:19 634次阅读