0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI是把双刃剑,HPC面临的全新机遇与挑战

E4Life 来源:电子发烧友 作者:周凯扬 2024-05-11 00:11 次阅读

电子发烧友网报道(文/周凯扬)高性能计算也就是HPC(High Performance Computing),是一种利用超级计算机或高性能计算机集群的能力实现并行计算,以处理标准工作站无法完成的数据密集型计算任务的技术。现如今的HPC随着芯片设计和AI技术的发展,也在迈向全新的道路,带动整个HPC市场稳步增长。

HPC市场趋势——需求与政策带动市场稳步增长

据统计全球高性能计算市场规模在 2023 年达到569.8 亿美元,预计到 2028 年将达到 967.9 亿美元,在预测期间以 11.18% 的复合年增长率增长。过去几年由于疫情、灾难气候等事件,推动了HPC的新需求。随着HPC在云端部署和需求的增加,人工智能、数据分析上也面临着快速处理数据、高精度日益增长的需求,包括生命科学、汽车、金融和航天航空等行业。

wKgZomY98x2AX7ncAABeeZJvdC8675.png
2023年不同平台营收占比 / 台积电


从上游晶圆厂的角度来看,HPC贡献的营收已经稳定超过智能手机业务。以台积电为例,其去年的HPC营收占比达到43%,已经是连续两年超过智能手机业务营收了。台积电CEO魏哲家预估,今年半导体产业产值将可望成长10%以上,晶圆代工产业将年成长20%,预期台积电2024年在人工智能(AI)和HPC需求带动下,全年营收有望实现20%以上的增长。

除了市场需求外,政策激励也在促进HPC的市场发展。比如国内发布的《十四五规划》中就提到,加快建设新型基础设施,建设 E 级和 10E 级超级计算中心,并在合肥、兰州、厦门、太原等地都将陆续建立高性能计算中心。

美国也发布了《保持美国高性能计算在E(百亿亿次级计算)时代的领先地位》这一指导文章,其中提到要落实芯片与科学法案中与HPC相关的投资与项目,增加能源部、区域创新中心超算项目的资助。

HPC不同应用的性能要求——不只是算力,I/O与时延同样重要

HPC提供了超高浮点计算能力解决方案,可用于各种海量数据处理等业务的计算需求,比如各种传统科学运算,常见的应用领域有基础科研、气象研究、制造仿真、材料计算、生命科学、地球物理等等。

除此之外,还有各种商业领域也得到了广泛应用,比如动画渲染、生物制药和基因测序等等。相较于其他通用计算系统而言,HPC系统往往需要对单一应用做出特殊的优化,无论是硬件还是软件。所以缺乏HPC系统弹性部署的同时,却也代表着极致的性能。不同的应用往往会对HPC系统的性能提出截然不同的要求。

比如在动画渲染中,关键参数为浮点算力、I/O性能,这是因为1.资产重、难度大的3D渲染,对缓存层的吞吐和I/O压力极大。2.需要快速交付海量算力,缩短制作周期,比如《长津湖之水门桥》《流浪地球2》《三体》等作品,都用到了贵安超算中心的庞大算力。

在气象研究中,关键参数为浮点算力、网络时延。因为1.气象观测时空分辨率增加,气象行业数据量大幅增长,处理能力有待提升。2.短临预报精度较低,需要更低的时延。在工程仿真中,网络时延、内存带宽至关重要。因为操作过程中,1.三维交互较多,对时延要求高2.要求高并发存取,更高的内存带宽可以显著提高效率。

HPC上游产业链——x86依然占据主导,Arm崛起

在HPC市场中,上游产业链主要是HPC系统的计算处理资源,包括CPUGPU、DPU和其他加速器。中游则涵盖了服务器产品,以及对应的附属资源,包括存储、网络设备、电源、冷却设备等。下游则是把HPC系统投入应用的部署厂商,包括云服务厂商、超算中心和科研机构等等。

在上游产业链中,HPC系统最重要的莫过于CPU和GPU这两大硬件。CPU厂商包括英特尔AMD英伟达、IBM、申威和龙芯中科等。GPU则包括英伟达、AMD、英特尔等厂商。DPU则包括英伟达、AMD、英特尔、亚马逊、阿里巴巴、云豹智能、星云智联。除此之外,HPC系统偶尔也会集成别的加速器设备,比如谷歌NPU,Cerebras的晶圆级AI处理器、景嘉微的景宏系列智算模块等。

从占比的角度来看,x86 CPU在HPC系统中依然占据绝对的主导地位,具体产品以英特尔的Xeon系列CPU和AMD的EPYC系列CPU为主。除了本身的性能足够强外,也少不了这么多年以来x86在HPC软件生态上的积累。

不过随着Arm架构在设计上的不断创新,相关的产品也在层出不穷,比如基于Neoverse核心设计的英伟达Grace CPU、阿里倚天710、华为鲲鹏920,又或是依靠自研核心打造的富士通A64FX CPU、飞腾腾云S5000C等。而且随着Arm打通了开发高性能计算生态,相关的计算库和软件也已经跟进了。

除了以上两个架构外,还有其他架构的CPU也在超算领域崭露头角,比如RISC-V架构以及其他自研RISC架构,但除了IBM的Power架构外,相关的硬件与软件生态都还不完善。

wKgZomY98ymAGD_NAAHkImyGdDs026.jpg
B200 GPU / 英伟达


在HPC系统所用到的加速器中,GPU占据了绝对的主导地位,其中市场份额最高的当数英伟达的高性能GPU产品。在时下性能排名靠前的HPC系统中,集成了英伟达发布跨度数年的产品,从Tesla 100到H100,英伟达的CUDA生态也已经在HPC软件中得到应用。除此之外,英伟达也打造了自己的超算Earth-2,用于天气预测。

其次是AMD的Instinct系列产品,充分利用了AMD的CDNA架构,为HPC系统提供强大的通用GPU计算性能。目前全球排名第一的超算系统Frontier,用到的就是AMD的MI250X GPU。

最后是英特尔数据中心GPU Max系列,使用该系列GPU的HPC系统不多,主要是搭配英特尔的Xeon处理器作为打包方案提供给客户。

需要注意的是,之所以目前用于HPC的GPU系统几乎只有这三家,是因为其提供了主流HPC应用所需的FP64精度支持。而近几年发布的GPU,由于专注于AI计算和消费级应用上,大部分最高只支持到FP32。

HPC中游产业链——AI同时拔高了HPC系统的存储与供电要求

在HPC服务器厂商中,市场份额占比最高的为HPE和戴尔两家厂商,除此之外联想、浪潮、中科曙光、IBM、Atos、富士通和NEC等,也推出了对应的产品解决方案。在HPC存储器方案上,由于HPC系统的特殊文件系统,往往还是由服务器厂商提供解决方案,包括戴尔、IBM、HPE、联想、DDN和希捷等。最后则是电源等附属设备,HPC系统电源以台湾供应商居多,包括台达电子、光宝科技、康舒、群电、肯微等等。

AI和HPC相融合,对于HPC的存储提出了新的要求,比如在接口上,虽然POSIX还是主流解决方案。但由于英伟达GPU在AI HPC系统中的广泛使用,也出现支持GDS(GPU直接存储)接口的存储方案。除此之外,AI HPC往往有着处理海量小文件的需求,对存储系统的扩展性要求较高。而且为了留存计算得到的临时结果,需要一定的临时存储空间需求。

就HPC系统的发展来看,目前的趋势是处理器的功耗每两年翻一番。2000A 的峰值电流现在已经很普遍。但随着HPC系统功耗继续升高,我们面临的是更高的PUE要求。比如我国就要求新建成的服务器PUE要小于1.3。这不仅对电源效率提出了新的挑战,也对散热方案提出了更高的要求,未来液冷方案可能会成为HPC系统的主流散热方案。

此外,AI HPC集群的供电要求更高。AI HPC系统的电源已经达到了3kW到4kW的区间,随着氮化镓和碳化硅技术在服务器电源领域的普及,未来可以支持到10kW级别的服务器电源。

超算市场的变与不变

超级计算机作为高性能计算的子集应用,代表了市面上最强大的计算系统。它们在进行特定的通用科学运算方面表现突出,但在处理一般计算工作时性能并不突出。据mordorintelligence预测,超级计算机市场规模预计到 2024 年将达到 121.0 亿美元,预计到 2029 年将达到 121.5 亿美元, 年复合增长率只有0.09%。虽然看起来市场增长不多,但政府和企业都在持续投入超算的部署。

超级计算机对一个国家的科学进步和国家安全作出了重大贡献,能源中心、超级计算中心均使用超算来处理工作负载。不仅如此,超算也用来打造国家超算互联网,接入第三方应用、数据、模型服务商,提供科学计算、工业仿真、人工智能模型训练的商用,缓解算力供需矛盾。

在企业投入上,云服务厂商加大投入,尤其是将HPC与AI计算结合的超算系统,并已经成为为HPC市场增长的主要贡献者。为了解决超算系统利用率低的问题,云服务厂商在服务器资源规划和灵活部署上采用了新的设计。

接着我们来看看TOP500超算榜单中的前十名,从23年11月公布的TOP500超算榜单中可以看出,中国已公开成绩的最强超算,神威太湖之光已经掉出前十的行业。当然了,这是由于多方面因素造成的,其实国内已经至少有两台E级的超算了,只是出于各种原因并未提交成绩。

其实还有不少私有HPC系统,已经在全速商用运行中,没有必要花费时间来运行LINPACK测试。其实,从2017年起,除了最快的这一批TOP10系统每年都会有所更新外,TOP500每年的提交数量就一直在降低,这是因为新的超算部署成本越来越高,而且这两年不少HPC硬件资源被优先投入进AIGC相关应用的开发中去。

HPC技术发展趋势——AI与云化部署

现如今HPC面临着两大技术变革,AI与云化部署。AI增强了数据集分析,在相同准确度水平下可以更快地获取结果。从新部署的一批HPC系统硬件配置就可以看出,GPU提供的算力比重越来越高,所以也出现了HPC-MxP这样专门针对AI性能进行测试的榜单,从榜单上也可以看出,通用算力和AI算力并不是一回事。

wKgaomY98zaAT-uSAAC-owQtuCM777.png
HPC-MxP 超算AI算力榜单


无论是在科学研究还是商业应用领域,都已经出现了对应的AI集成HPC软件,包括1.金融服务分析、物流和制造计算 2.流体力学、计算机辅助工程和辅助设计 3.高能物理的可视化和仿真 4.天气预报、气象学等。

出现这种趋势并不奇怪,近几年GPU演进速度和算力提升速度远远高于CPU,不过HPC系统与这些大火的GPT、LLM应用不一样的是,往往不会去追最新的GPU硬件,原因有二:
1.因为HPC集群规模较大,制造商下GPU订单后,也需要不短的交期才能交付,而目前最新的GPU往往都交付给了云服务厂商;2.如今的GPU在高精度算力上的提升并不如低精度算力,这是因为目前最火的还是各类大模型应用,他们处理的往往是更低精度的数据。

第二个趋势就是云化部署,传统的本地HPC应用往往采用封闭机型和专属架构,包括富岳、神威·太湖之光等,这类系统在计算密集类的应用上依然占据着很大的优势,在科学研究类工作中仍被广泛应用。然而在商业领域,云化部署的HPC运用受欢迎程度越来越高。

但正如上面提到的,新系统的成本越来越高,不仅是硬件成本,还有维护成本。再加上扩容困难、资源利用率较低等问题,把HPC系统转换为数字资源并采用云化部署成了新的趋势。

AWS、Azure、谷歌、阿里云和华为云等推出的HPC集群,为HPC云端部署提供了更加简单的方案。云化部署简化了HPC应用的部署和扩容过程,而且灵活的配置,和近乎无限的scale out拓展性,让其无论是成本还是性能来说,对不少HPC应用而言都是最优解。当然对于国家研究中心之类的单位而言,为了信息安全等考量,本地HPC系统依然是部署的首要选择。

HPC面临的挑战——成本与电力墙

尽管出现了各类创新,HPC市场依旧面临着不小的挑战。首先就是硬件成本的增加,AI的加入,使得HPC系统的总成本再度上了一个新台阶。为了在提高通用计算性能的同时,提高AI算力,大量使用GPU几乎是唯一的出路。而且在目前AI GPU产能有限的情况下,对于一些科研HPC单位而言,获取难度更大。

以H100 GPU为例,Meta、微软、谷歌、Oracle、特斯拉等私有云、公有云厂商的拥有量更大,而且这些厂商仍在持续投入。从前十的超算排名中就能看出,不少国家HPC要么用到AMD或英特尔的GPU,要么采用A100或GV100之类的前代产品比如,单单Meta一家,就需要借助近60万块H100 GPU打造下一代GenAI应用,相较之下排名第三的Eagle超算,只集成了14400块H100 GPU。

另一大挑战就是电力墙。随着计算能力的增加,硬件功耗也随之增加,这导致了热管理和电力供应方面的问题。对于大规模的HPC系统,比如数据中心计算集群和超算而言,电力和冷却成本都会变得非常高。

我们拿排名靠前的几大超算系统为例,其中富岳超级计算机的系统功耗在30到40MW之间,Frontier超级计算机的系统功耗22.7MW。为了推动HPC系统充分改善能效,减少碳足迹,Green500榜单被推出,以单位瓦数的峰值算力作为参考,为的就是促进设计厂商推出能效更高的硬件,以及应用开发商对HPC软件进行进一步优化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268885
  • HPC
    HPC
    +关注

    关注

    0

    文章

    315

    浏览量

    23753
  • 高性能计算
    +关注

    关注

    0

    文章

    82

    浏览量

    13385
收藏 人收藏

    评论

    相关推荐

    AI接吻”——AI技术的双刃剑

    综上所述,“AI接吻”技术作为一双刃剑,在带来创新与便利的同时,也伴随着诸多风险与挑战。因此,我们在使用该技术时要保持警惕和理性,充分发挥其优点,同时努力规避其不利影响。
    的头像 发表于 12-09 14:48 140次阅读

    动态海外住宅IP:全球访问与数据安全的双刃剑

    动态海外住宅IP作为一种先进的网络工具,确实在全球访问与数据安全方面展现出双刃剑的特性。它既能为用户提供突破地域限制、保护隐私、增强网络安全的便利,又伴随着一定的风险和挑战
    的头像 发表于 11-25 07:58 100次阅读

    探索出口美国480V变120V UL认证变压器的新机遇

    《探索出口美国 480V 变 120V UL 认证变压器的新机遇》 在全球贸易格局不断演变的当下,电力设备领域的出口业务正面临着新的挑战机遇。出口美国的 480V 变 120V UL
    的头像 发表于 11-23 17:34 186次阅读
    探索出口美国480V变120V UL认证变压器的<b class='flag-5'>新机遇</b>

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    的深入发展。 3. 挑战机遇并存 尽管AI在生命科学领域取得了显著的成果,但也面临着诸多挑战。例如,数据隐私、算法偏见、伦理道德等问题都需
    发表于 10-14 09:21

    存力与算力并重:数据时代的双刃剑

    在2024年的今天,人工智能(AI)技术已经全面渗透至我们生活的方方面面,从医疗诊断到智能交通,从金融分析到智能家居,AI正以前所未有的速度重塑我们的世界。这一变革背后,算力和存力成为了支撑AI发展的两大核心要素,它们的重要性日
    的头像 发表于 10-08 16:00 810次阅读

    共话出海未来,共谋发展新篇—“生成式AI,解锁出海新机遇”沙龙成功举办

    在业务布局、金融管理、技术创新等方面的出海实践经验。同时探讨AI技术如何赋能企业出海,助力中国企业在全球化浪潮中把握机遇、应对挑战,为中国企业出海之路注入新的活力和动力。   科技赋能,探索出海
    的头像 发表于 09-25 10:53 281次阅读
    共话出海未来,共谋发展新篇—“生成式<b class='flag-5'>AI</b>,解锁出海<b class='flag-5'>新机遇</b>”沙龙成功举办

    深圳特信电子 4G5G手机信号屏蔽器:科技双刃剑,打造无干扰空间

    深圳特信电子|4G5G手机信号屏蔽器:科技双刃剑,打造无干扰空间
    的头像 发表于 08-06 09:06 338次阅读

    拉丁美洲与加勒比地区:人工智能浪潮下的就业市场双刃剑

    在全球化与科技日新月异的今天,拉丁美洲与加勒比地区的就业市场正站在一个十字路口,面对着人工智能(AI)技术带来的深刻变革,这既是一场前所未有的挑战,也是推动区域经济发展的重要机遇。根据国际劳工组织和世界银行联合发布的最新研究报告
    的头像 发表于 08-01 15:08 453次阅读

    平衡创新与伦理:AI时代的隐私保护和算法公平

    成了一双刃剑,其锐利的一面正逐渐指向我们的核心价值。面对这些挑战,制定一套有效的AI治理框架和隐私保护机制变得迫在眉睫。 确保AI决策
    发表于 07-16 15:07

    苹果AI服务在华面临挑战,寻求本土合作新机遇

    在科技飞速发展的今天,人工智能(AI)已成为各大科技巨头争相布局的新战场。然而,在全球第二大iPhone市场——中国,苹果公司却面临着前所未有的挑战
    的头像 发表于 06-22 16:51 941次阅读

    华为欧洲游戏沙龙聚焦土耳其,共探市场新机遇

    近日,华为主办的“领启未来”游戏行业沙龙在欧洲的土耳其盛大举行。此次沙龙以“欧洲出海”为主题,华为游戏中心携手点触游戏、FunPlus、沐瞳、NEOCRAFT、网易游戏等业界翘楚,共同探讨了欧洲游戏市场的新机遇挑战
    的头像 发表于 06-13 16:54 749次阅读

    手机信号屏蔽器:隐私保护与通信安全的双刃剑

    深圳特信电子|手机信号屏蔽器:隐私保护与通信安全的双刃剑
    的头像 发表于 04-15 08:39 457次阅读

    AI时代如何确保计算安全?

    正如其他技术革新一样,人工智能 (AI) 为人们的数字体验带来了新机遇,但同时也伴随着诸多挑战
    的头像 发表于 04-09 17:07 465次阅读

    中软国际携手华海智汇共同探索智慧ICT市场新机遇

    3月20日,中软国际有限公司(以下简称中软国际)与华海智汇技术有限公司(以下简称“华海智汇”)在天津进行业务交流,旨在共同探索智慧ICT市场新机遇,加强优势互补,实现合作共赢,为全球数字化发展贡献更多力量。
    的头像 发表于 03-25 11:23 606次阅读

    敦泰:布局高端产品,抢抓柔性OLED市场新机遇

    2023年,面对国内外诸多挑战,敦泰科技以其OLED触控芯片、车载TDDI等产品市场份额稳步提升,收获颇丰。公司不断优化资源配置,加强OLED DDI、IDC(TDDI)芯片等高端产品的研发和生产,助力抢占柔性OLED市场的新机遇,进一步巩固其在触控与显示芯片行业的领先地
    的头像 发表于 02-29 17:52 1068次阅读
    敦泰:布局高端产品,抢抓柔性OLED市场<b class='flag-5'>新机遇</b>