0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔聚力整合实现可持续的异构计算

英特尔中国 来源:英特尔中国 作者:Jeff McVeigh 2022-06-12 17:30 次阅读

接下来的超算普及化时代,英特尔将满足永无止境的计算需求,并将可持续发展作为重中之重。

本文作者:Jeff McVeigh

英特尔副总裁兼超级计算事业部总经理

随着我们进入E级(Exascale)计算时代并迈向Z级(Zettascale)计算时代,科技行业也越来越影响着全球的碳排放。据估计,到2030年数据中心的能耗估计将达到全球能源产量的3%-7%①,而计算基础设施将成为新增用电量的主要驱动因素。

今年,英特尔承诺到2040年实现全球业务的温室气体净零排放,并开发更加可持续的技术解决方案。在创造可持续未来的同时满足对计算永无止境的需求,这是高性能计算(HPC)面临的最大挑战之一。这个任务虽然艰巨,但如果我们能够把芯片、软件和系统这些HPC计算堆栈的每个部分都做好,它就是可以实现的。

我在德国汉堡举行的2022国际超算大会(ISC2022)上发表了主题演讲,上述内容就是我在演讲中传达的核心信息

从芯片和异构计算架构开始

英特尔公布了直到2024年的高性能计算产品路线图,期间我们将致力于提供多样化的异构架构。这些架构不仅将使我们能够实现几个数量级的性能提升,同时亦可降低通用工作负载及诸如人工智能、加密、分析等新兴工作负载的能耗。

以内置高带宽内存(HBM),代号为Sapphire Rapids的英特尔至强处理器为例,该款处理器能够很好地展示我们如何利用先进的封装技术和芯片创新,为高性能计算带来性能、带宽和节能方面的显著提升。通过封装高达64GB的高带宽内存HBM2e并把加速器集成到CPU中,我们能够释放内存敏感型工作负载的潜力,为这些关键的高性能计算应用场景大幅提升性能。在对比第三代英特尔 至强 可扩展处理器和即将推出的内置高带宽内存(HBM)的Sapphire Rapids处理器时,我们发现,后者把气候研究、能源、制造和物理学工作负载的性能提升了2-3倍②。在主题演讲中,Ansys首席技术官Prith Banerjee还展示了内置高带宽内存的Sapphire Rapids为Ansys Fluent和ParSeNet的实际工作负载带来了高达2倍的性能提升③。

为实现跨HPC和AI超算工作负载的几个数量级的性能提升,计算密度是另一必不可少的要素。代号为Ponte Vecchio的英特尔首个旗舰级数据中心图形处理器(GPU),已经在复杂的金融服务应用以及AI推理和训练工作负载方面展现出了卓越的优势。

创新不止于此。今天,我们还宣布这款出色数据中心GPU的下一代产品代号为Rialto Bridge。通过升级Ponte Vecchio架构,并结合使用下一代制程节点技术制造的增强型芯片子模块,Rialto Bridge将大幅提高计算密度、性能和效率,同时提供软件一致性。

展望未来,Falcon Shores是我们路线图中下一个重要的架构创新,即把x86 CPU和Xe GPU集成在同一插槽中。这一架构计划将在2024年推出,它将在每瓦性能、计算密度、内存容量与带宽方面均实现超过5倍的性能提升④。

成功的软件战略遵循三个原则:

开放、选择、信任

如果没有软件为芯片注入活力,它将仅仅只是砂砾。英特尔的软件策略是促进整个堆栈的开放式发展,并提供工具、平台和软件IP,以帮助开发者提升工作效率,产出可扩展、更高性能、更高效的代码,这些代码能充分利用最新的芯片创新,没有重构代码的负担。oneAPI行业计划为HPC开发者提供了跨架构编程,使代码能透明、可迁移地适用于CPU、GPU和其他专用加速器。

目前,在世界各地领先的科研和学术机构中已有20多个oneAPI卓越中心(CoE),它们正取得重要的进展。例如,布里斯托大学科学系的Simon McIntosh-Smith和他的团队,正在使用oneAPI和Khronos Group的SYCL抽象层进行跨架构编程,为在E级计算规模上实现性能可移植性开发最佳实践。他们的工作将确保科学代码能在大规模异构超算系统上实现高性能。

聚力整合:实现可持续的异构计算

随着数据中心和HPC工作负载越来越多采用分布式架构和异构计算,我们需要借助工具来帮助有效管理和应对复杂多样的计算环境。

今天,我们将推出一款开源解决方案Intel XPU Manager,它可以在本地或远程监测和管理英特尔数据中心GPU。该解决方案旨在简化管理,并通过综合诊断更好地实现可靠性和延长设备运行时间,以及提升利用率并支持固件更新。

针对能耗很高的数据传输和存储任务,分布式异步对象存储(DAOS)文件系统提供了系统级的优化。DAOS可以显著地改善文件系统的性能,它不仅可以缩短整体访问时间,而且能够降低存储所需的容量,从而减少数据中心的占用空间并提高能源效率。相比于Lustre在I/O500中的测试结果,DAOS实现了直接写入文件系统性能70倍⑤的提升。

应对HPC的可持续性挑战

我们很荣幸能够与全球志同道合的客户和行业领先的科研机构合作,朝着实现更具可持续性和开放性的高性能计算而努力。我们近期取得了一系列成果——我们与巴塞罗那超算中心合作建立了开创性的RISC-V Z级计算实验室;并与剑桥大学和戴尔继续合作,将当前的E级计算实验室进一步打造成为新的剑桥Z级计算实验室。

独木难支,完整生态的构建需要在制造、芯片、互连、软件和系统等各方面携手共进。通过与整个生态的协作,我们致力于将本世纪最大的HPC挑战转化为前所未有的机遇,创造改变世界的技术,让未来更美好。

注意事项与免责声明:

①《对2020年至2030年期间全球计算机的一次能源使用、电力使用和二氧化碳排放及其所占份额的假设》,作者:Anders S.G. Andrae,《WSEAS电力系统汇刊》,15(2020)

②测量依据如下:

CloverLeaf

由英特尔于2022年4月26日测试。1节点,2个英特尔至强铂金8360Y CPU,72个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Ubuntu 20.04,Kernel 5.10,0xd0002a0,ifort 2021.5,Intel MPI 2021.5.1,编译器参数:-xCORE-AVX512-qopt-zmm-usage=high

由英特尔于2022年4月19日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,ifort 2021.5,Intel MPI 2021.5.1,编译器参数:-xCORE-AVX512–qopt-zmm-usage=high

OpenFOAM

由英特尔于2022年1月26日测试。1节点,2个英特尔至强铂金8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,0xd000270,Rocky Linux 8.5 ,Linux版本4.18.,OpenFOAMv1912,Motorbike 28M@250次迭代;编译说明:工具:Intel Parallel Studio 2020u4,编译器参数:-O3-ip-xCORE-AVX512

由英特尔于2022年1月26日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程关闭,睿频关闭,总内存128GB(HBM2e以3200MHz的频率运行),试生产的平台和BIOS,CentOS 8,Linux版本5.12,OpenFOAMv1912,Motorbike 28M@250次迭代;编译说明:工具:Intel Parallel Studio 2020u4,编译器参数:-O3-ip-xCORE-AVX512

WRF

由英特尔于2022年5月3日测试。1节点,2个英特尔至强8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,WRF v4.2.2

由英特尔于2022年5月3日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,WRF v4.2.2

YASK

由英特尔于2022年5月9日测试。1节点,2个英特尔至强铂金8360Y CPU,72个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s),SE5C6200.86B.0021.D40.2101090208,Rocky linux 8.5,Kernel 4.18.0,0xd000270,编译器参数:make-j YK_CXX='mpiicpc-cxx=icpx' arch=avx2 stencil=iso3dfd radius=8,

由英特尔于2022年5月3日测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程开启,睿频开启,总内存128GB(HBM2e以3200MHz的频率运行),BIOS版本EGSDCRB1.86B.0077.D11.2203281354,ucode版本=0x83000200,CentOS Stream 8,Linux版本5.16,编译器参数:make-j YK_CXX='mpiicpc-cxx=icpx'arch=avx2 stencil=iso3dfd radius=8,

③Ansys Fluent

由英特尔于2022年2月测试。1节点,2个英特尔至强铂金8380 CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB 3200MT/s,双面),BIOS版本SE5C6200.86B.0020.P23.2103261309,ucode版本=0xd000270,Rocky Linux 8.5,Linux版本4.18,Ansys Fluent 2021 R2 Aircraft_wing_14m;编译说明:商业版本使用Intel 19.3编译器和Intel MPI 2019u

由英特尔于2022年2月测试。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,40个以上内核,超线程关闭,睿频关闭,总内存128GB(HBM2e以3200MHz的频率运行),预生产的平台和BIOS,CentOS 8,Linux版本5.12,Ansys Fluent 2021 R2 Aircraft_wing_14m;编译说明:商业版本使用Intel 19.3编译器和Intel MPI 2019u8

Ansys ParSeNet

由英特尔于2022年5月24日测试。1节点,2个英特尔至强铂金8380CPU,80个内核,超线程开启,睿频开启,总内存256GB(16x16GB DDR4 3200MT/s [3200 MT/s]),SE5C6200.86B.0021 .D40.2101090208,Ubuntu 20.04.1 LTS,5.10,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL (2021.4-Product Build 20210904),oneDNN (V2.5.0)

由英特尔测试于2022年4月18日。1节点,2个早期的英特尔至强可扩展处理器测试样品,代号为Sapphire Rapids+HBM,112个内核,超线程开启,睿频开启,总内存128GB(HBM2e 3200 MT/s),EGSDCRB1.86B.0077.D11.2203281354,CentOS Stream 8,5.16,ParSeNet (SplineNet),PyTorch 1.11.0,Torch-CCL 1.2.0,IPEX 1.10.0,MKL(2021.4-Product Build 20210904),oneDNN(v2.5.0)

④Falcon Shores的性能目标基于截至2022年2月相对于当前平台的预测。结果可能有所不同。

⑤结果可能有所不同。更多信息请访问io500和YouTube视频《DAOS与Lustre的性能对比测试》

原文标题:加速创新,打造更具可持续性和开放性的HPC

文章出处:【微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    9949

    浏览量

    171685
  • HPC
    HPC
    +关注

    关注

    0

    文章

    315

    浏览量

    23750
  • 高性能计算
    +关注

    关注

    0

    文章

    82

    浏览量

    13385

原文标题:加速创新,打造更具可持续性和开放性的HPC

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔推出全新英特尔锐炫B系列显卡

    备受玩家青睐的价格提供卓越的性能与价值1,很好地满足现代游戏需求,并为AI工作负载提供加速。其配备的英特尔Xe矩阵计算引擎(XMX),为新推出的XeSS 2提供强大支持。XeSS 2的三项核心技术协同工作,共同提高性能表现、增强视觉流畅性并加快响应速度。 “   全新
    的头像 发表于 12-07 10:16 659次阅读
    <b class='flag-5'>英特尔</b>推出全新<b class='flag-5'>英特尔</b>锐炫B系列显卡

    【一文看懂】什么是异构计算

    随着人工智能、深度学习、大数据处理等技术的快速发展,计算需求的复杂性不断提升。传统的单一计算架构已难以满足高效处理复杂任务的要求,异构计算因此应运而生,成为现代计算领域的一个重要方向。
    的头像 发表于 12-04 01:06 1326次阅读
    【一文看懂】什么是<b class='flag-5'>异构计算</b>?

    忆联亮相英特尔新质生产技术生态大会

    近日,英特尔新质生产技术生态大会在成都举行。本次大会由英特尔主办,汇聚四川省政府、成都市政府、高新区管委会及有关部门领导,以及2000多位产业伙伴,分享数字经济推动新质生产发展的趋
    的头像 发表于 11-30 15:58 517次阅读

    英特尔分析新质生产发展的趋势和机遇

    “这次大会是探讨未来的,我相信这也是我们紧密合作,一起塑造共同未来的开始!”面对英特尔新质生产技术生态大会现场的2,000余名产业伙伴,英特尔公司高级副总裁、英特尔中国区董事长王锐如
    的头像 发表于 11-28 14:27 291次阅读

    芯海科技edge BMC首秀2024英特尔网络与边缘计算行业峰会

    7月23-24日,“2024英特尔网络与边缘计算行业大会”在天津于家堡洲际酒店热烈举行。本届大会以“芯所及 AI无处不在”为主题,汇聚全球网络与边缘计算领域的400多位精英专家与先锋企业高管,聚焦
    发表于 07-25 13:40 193次阅读
    芯海科技edge BMC首秀2024<b class='flag-5'>英特尔</b>网络与边缘<b class='flag-5'>计算</b>行业峰会

    英特尔是如何实现玻璃基板的?

    在今年9月,英特尔宣布率先推出用于下一代先进封装的玻璃基板,并计划在未来几年内向市场提供完整的解决方案,从而使单个封装内的晶体管数量不断增加,继续推动摩尔定律,满足以数据为中心的应用的算需求
    的头像 发表于 07-22 16:37 312次阅读

    异构计算:解锁算潜能的新途径

    在这个数据爆炸的时代,计算力是推动社会与科技创新的核心。从日常智能设备的流畅运行到超级计算机的尖端模拟,均依赖强大的计算能力。但面对多样化的复杂计算任务,单一处理器难以胜任。于是,
    的头像 发表于 07-18 08:28 7815次阅读
    <b class='flag-5'>异构计算</b>:解锁算<b class='flag-5'>力</b>潜能的新途径

    新思科技面向英特尔代工推出量产的多裸晶芯片设计参考流程,加速芯片创新

    英特尔代工(Intel Foundry)的EMIB先进封装技术,提升异构集成的结果质量; 新思科技3DIC Compiler是一个从探索到签核的统一平台,支持采用
    发表于 07-09 13:42 783次阅读

    智能时代的路,将由异构计算铺就

    的数字产业集群,全面实施智能制造行动计划,已经成为我国当前发展的重点之一。在此背景下,企业如何突破算迷局,找到更加高效的算形态,就变得至关重要。据英特尔预测,到2
    的头像 发表于 07-03 08:28 225次阅读
    智能时代的路,将由<b class='flag-5'>异构计算</b>铺就

    英特尔CEO:AI时代英特尔动力不减

    英特尔CEO帕特·基辛格坚信,在AI技术的飞速发展之下,英特尔的处理器仍能保持其核心地位。基辛格公开表示,摩尔定律仍然有效,而英特尔在处理器和芯片技术上的创新能力将持续驱动公司前进。
    的头像 发表于 06-06 10:04 412次阅读

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理器,如专注于AI工作负载的定制设计的NPU、CPU和GPU。
    的头像 发表于 03-06 14:15 777次阅读

    英特尔1nm投产时间曝光!领先于台积电

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月28日 16:28:32

    英特尔首推面向AI时代的系统级代工—英特尔代工

    英特尔首推面向AI时代的系统级代工——英特尔代工(Intel Foundry),在技术、韧性和可持续性方面均处于领先地位。
    的头像 发表于 02-25 10:38 537次阅读
    <b class='flag-5'>英特尔</b>首推面向AI时代的系统级代工—<b class='flag-5'>英特尔</b>代工

    英特尔登顶2023年全球半导体榜单之首

    英特尔行业芯事
    深圳市浮思特科技有限公司
    发布于 :2024年02月01日 11:55:16

    英特尔专家为您揭秘第五代英特尔® 至强® 扩展处理器如何为AI加速

    % 1 ,AI 推理性能提升42% 2 。 这一系列性能提升的背后,存在着怎样的创新与突破?第五代英特尔 至强 扩展处理器为什么要强调为AI加速?它又是如何做到为AI加速的呢? 从异构计算到AIGC、从AI算
    的头像 发表于 12-23 12:20 728次阅读