0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI是把双刃剑,HPC面临的全新机遇与挑战

E4Life 来源:电子发烧友 作者:周凯扬 2024-05-11 00:11 次阅读

电子发烧友网报道(文/周凯扬)高性能计算也就是HPC(High Performance Computing),是一种利用超级计算机或高性能计算机集群的能力实现并行计算,以处理标准工作站无法完成的数据密集型计算任务的技术。现如今的HPC随着芯片设计和AI技术的发展,也在迈向全新的道路,带动整个HPC市场稳步增长。

HPC市场趋势——需求与政策带动市场稳步增长

据统计全球高性能计算市场规模在 2023 年达到569.8 亿美元,预计到 2028 年将达到 967.9 亿美元,在预测期间以 11.18% 的复合年增长率增长。过去几年由于疫情、灾难气候等事件,推动了HPC的新需求。随着HPC在云端部署和需求的增加,人工智能、数据分析上也面临着快速处理数据、高精度日益增长的需求,包括生命科学、汽车、金融和航天航空等行业。

wKgZomY98x2AX7ncAABeeZJvdC8675.png
2023年不同平台营收占比 / 台积电


从上游晶圆厂的角度来看,HPC贡献的营收已经稳定超过智能手机业务。以台积电为例,其去年的HPC营收占比达到43%,已经是连续两年超过智能手机业务营收了。台积电CEO魏哲家预估,今年半导体产业产值将可望成长10%以上,晶圆代工产业将年成长20%,预期台积电2024年在人工智能(AI)和HPC需求带动下,全年营收有望实现20%以上的增长。

除了市场需求外,政策激励也在促进HPC的市场发展。比如国内发布的《十四五规划》中就提到,加快建设新型基础设施,建设 E 级和 10E 级超级计算中心,并在合肥、兰州、厦门、太原等地都将陆续建立高性能计算中心。

美国也发布了《保持美国高性能计算在E(百亿亿次级计算)时代的领先地位》这一指导文章,其中提到要落实芯片与科学法案中与HPC相关的投资与项目,增加能源部、区域创新中心超算项目的资助。

HPC不同应用的性能要求——不只是算力,I/O与时延同样重要

HPC提供了超高浮点计算能力解决方案,可用于各种海量数据处理等业务的计算需求,比如各种传统科学运算,常见的应用领域有基础科研、气象研究、制造仿真、材料计算、生命科学、地球物理等等。

除此之外,还有各种商业领域也得到了广泛应用,比如动画渲染、生物制药和基因测序等等。相较于其他通用计算系统而言,HPC系统往往需要对单一应用做出特殊的优化,无论是硬件还是软件。所以缺乏HPC系统弹性部署的同时,却也代表着极致的性能。不同的应用往往会对HPC系统的性能提出截然不同的要求。

比如在动画渲染中,关键参数为浮点算力、I/O性能,这是因为1.资产重、难度大的3D渲染,对缓存层的吞吐和I/O压力极大。2.需要快速交付海量算力,缩短制作周期,比如《长津湖之水门桥》《流浪地球2》《三体》等作品,都用到了贵安超算中心的庞大算力。

在气象研究中,关键参数为浮点算力、网络时延。因为1.气象观测时空分辨率增加,气象行业数据量大幅增长,处理能力有待提升。2.短临预报精度较低,需要更低的时延。在工程仿真中,网络时延、内存带宽至关重要。因为操作过程中,1.三维交互较多,对时延要求高2.要求高并发存取,更高的内存带宽可以显著提高效率。

HPC上游产业链——x86依然占据主导,Arm崛起

在HPC市场中,上游产业链主要是HPC系统的计算处理资源,包括CPUGPU、DPU和其他加速器。中游则涵盖了服务器产品,以及对应的附属资源,包括存储、网络设备、电源、冷却设备等。下游则是把HPC系统投入应用的部署厂商,包括云服务厂商、超算中心和科研机构等等。

在上游产业链中,HPC系统最重要的莫过于CPU和GPU这两大硬件。CPU厂商包括英特尔AMD英伟达、IBM、申威和龙芯中科等。GPU则包括英伟达、AMD、英特尔等厂商。DPU则包括英伟达、AMD、英特尔、亚马逊、阿里巴巴、云豹智能、星云智联。除此之外,HPC系统偶尔也会集成别的加速器设备,比如谷歌NPU,Cerebras的晶圆级AI处理器、景嘉微的景宏系列智算模块等。

从占比的角度来看,x86 CPU在HPC系统中依然占据绝对的主导地位,具体产品以英特尔的Xeon系列CPU和AMD的EPYC系列CPU为主。除了本身的性能足够强外,也少不了这么多年以来x86在HPC软件生态上的积累。

不过随着Arm架构在设计上的不断创新,相关的产品也在层出不穷,比如基于Neoverse核心设计的英伟达Grace CPU、阿里倚天710、华为鲲鹏920,又或是依靠自研核心打造的富士通A64FX CPU、飞腾腾云S5000C等。而且随着Arm打通了开发高性能计算生态,相关的计算库和软件也已经跟进了。

除了以上两个架构外,还有其他架构的CPU也在超算领域崭露头角,比如RISC-V架构以及其他自研RISC架构,但除了IBM的Power架构外,相关的硬件与软件生态都还不完善。

wKgZomY98ymAGD_NAAHkImyGdDs026.jpg
B200 GPU / 英伟达


在HPC系统所用到的加速器中,GPU占据了绝对的主导地位,其中市场份额最高的当数英伟达的高性能GPU产品。在时下性能排名靠前的HPC系统中,集成了英伟达发布跨度数年的产品,从Tesla 100到H100,英伟达的CUDA生态也已经在HPC软件中得到应用。除此之外,英伟达也打造了自己的超算Earth-2,用于天气预测。

其次是AMD的Instinct系列产品,充分利用了AMD的CDNA架构,为HPC系统提供强大的通用GPU计算性能。目前全球排名第一的超算系统Frontier,用到的就是AMD的MI250X GPU。

最后是英特尔数据中心GPU Max系列,使用该系列GPU的HPC系统不多,主要是搭配英特尔的Xeon处理器作为打包方案提供给客户。

需要注意的是,之所以目前用于HPC的GPU系统几乎只有这三家,是因为其提供了主流HPC应用所需的FP64精度支持。而近几年发布的GPU,由于专注于AI计算和消费级应用上,大部分最高只支持到FP32。

HPC中游产业链——AI同时拔高了HPC系统的存储与供电要求

在HPC服务器厂商中,市场份额占比最高的为HPE和戴尔两家厂商,除此之外联想、浪潮、中科曙光、IBM、Atos、富士通和NEC等,也推出了对应的产品解决方案。在HPC存储器方案上,由于HPC系统的特殊文件系统,往往还是由服务器厂商提供解决方案,包括戴尔、IBM、HPE、联想、DDN和希捷等。最后则是电源等附属设备,HPC系统电源以台湾供应商居多,包括台达电子、光宝科技、康舒、群电、肯微等等。

AI和HPC相融合,对于HPC的存储提出了新的要求,比如在接口上,虽然POSIX还是主流解决方案。但由于英伟达GPU在AI HPC系统中的广泛使用,也出现支持GDS(GPU直接存储)接口的存储方案。除此之外,AI HPC往往有着处理海量小文件的需求,对存储系统的扩展性要求较高。而且为了留存计算得到的临时结果,需要一定的临时存储空间需求。

就HPC系统的发展来看,目前的趋势是处理器的功耗每两年翻一番。2000A 的峰值电流现在已经很普遍。但随着HPC系统功耗继续升高,我们面临的是更高的PUE要求。比如我国就要求新建成的服务器PUE要小于1.3。这不仅对电源效率提出了新的挑战,也对散热方案提出了更高的要求,未来液冷方案可能会成为HPC系统的主流散热方案。

此外,AI HPC集群的供电要求更高。AI HPC系统的电源已经达到了3kW到4kW的区间,随着氮化镓和碳化硅技术在服务器电源领域的普及,未来可以支持到10kW级别的服务器电源。

超算市场的变与不变

超级计算机作为高性能计算的子集应用,代表了市面上最强大的计算系统。它们在进行特定的通用科学运算方面表现突出,但在处理一般计算工作时性能并不突出。据mordorintelligence预测,超级计算机市场规模预计到 2024 年将达到 121.0 亿美元,预计到 2029 年将达到 121.5 亿美元, 年复合增长率只有0.09%。虽然看起来市场增长不多,但政府和企业都在持续投入超算的部署。

超级计算机对一个国家的科学进步和国家安全作出了重大贡献,能源中心、超级计算中心均使用超算来处理工作负载。不仅如此,超算也用来打造国家超算互联网,接入第三方应用、数据、模型服务商,提供科学计算、工业仿真、人工智能模型训练的商用,缓解算力供需矛盾。

在企业投入上,云服务厂商加大投入,尤其是将HPC与AI计算结合的超算系统,并已经成为为HPC市场增长的主要贡献者。为了解决超算系统利用率低的问题,云服务厂商在服务器资源规划和灵活部署上采用了新的设计。

接着我们来看看TOP500超算榜单中的前十名,从23年11月公布的TOP500超算榜单中可以看出,中国已公开成绩的最强超算,神威太湖之光已经掉出前十的行业。当然了,这是由于多方面因素造成的,其实国内已经至少有两台E级的超算了,只是出于各种原因并未提交成绩。

其实还有不少私有HPC系统,已经在全速商用运行中,没有必要花费时间来运行LINPACK测试。其实,从2017年起,除了最快的这一批TOP10系统每年都会有所更新外,TOP500每年的提交数量就一直在降低,这是因为新的超算部署成本越来越高,而且这两年不少HPC硬件资源被优先投入进AIGC相关应用的开发中去。

HPC技术发展趋势——AI与云化部署

现如今HPC面临着两大技术变革,AI与云化部署。AI增强了数据集分析,在相同准确度水平下可以更快地获取结果。从新部署的一批HPC系统硬件配置就可以看出,GPU提供的算力比重越来越高,所以也出现了HPC-MxP这样专门针对AI性能进行测试的榜单,从榜单上也可以看出,通用算力和AI算力并不是一回事。

wKgaomY98zaAT-uSAAC-owQtuCM777.png
HPC-MxP 超算AI算力榜单


无论是在科学研究还是商业应用领域,都已经出现了对应的AI集成HPC软件,包括1.金融服务分析、物流和制造计算 2.流体力学、计算机辅助工程和辅助设计 3.高能物理的可视化和仿真 4.天气预报、气象学等。

出现这种趋势并不奇怪,近几年GPU演进速度和算力提升速度远远高于CPU,不过HPC系统与这些大火的GPT、LLM应用不一样的是,往往不会去追最新的GPU硬件,原因有二:
1.因为HPC集群规模较大,制造商下GPU订单后,也需要不短的交期才能交付,而目前最新的GPU往往都交付给了云服务厂商;2.如今的GPU在高精度算力上的提升并不如低精度算力,这是因为目前最火的还是各类大模型应用,他们处理的往往是更低精度的数据。

第二个趋势就是云化部署,传统的本地HPC应用往往采用封闭机型和专属架构,包括富岳、神威·太湖之光等,这类系统在计算密集类的应用上依然占据着很大的优势,在科学研究类工作中仍被广泛应用。然而在商业领域,云化部署的HPC运用受欢迎程度越来越高。

但正如上面提到的,新系统的成本越来越高,不仅是硬件成本,还有维护成本。再加上扩容困难、资源利用率较低等问题,把HPC系统转换为数字资源并采用云化部署成了新的趋势。

AWS、Azure、谷歌、阿里云和华为云等推出的HPC集群,为HPC云端部署提供了更加简单的方案。云化部署简化了HPC应用的部署和扩容过程,而且灵活的配置,和近乎无限的scale out拓展性,让其无论是成本还是性能来说,对不少HPC应用而言都是最优解。当然对于国家研究中心之类的单位而言,为了信息安全等考量,本地HPC系统依然是部署的首要选择。

HPC面临的挑战——成本与电力墙

尽管出现了各类创新,HPC市场依旧面临着不小的挑战。首先就是硬件成本的增加,AI的加入,使得HPC系统的总成本再度上了一个新台阶。为了在提高通用计算性能的同时,提高AI算力,大量使用GPU几乎是唯一的出路。而且在目前AI GPU产能有限的情况下,对于一些科研HPC单位而言,获取难度更大。

以H100 GPU为例,Meta、微软、谷歌、Oracle、特斯拉等私有云、公有云厂商的拥有量更大,而且这些厂商仍在持续投入。从前十的超算排名中就能看出,不少国家HPC要么用到AMD或英特尔的GPU,要么采用A100或GV100之类的前代产品比如,单单Meta一家,就需要借助近60万块H100 GPU打造下一代GenAI应用,相较之下排名第三的Eagle超算,只集成了14400块H100 GPU。

另一大挑战就是电力墙。随着计算能力的增加,硬件功耗也随之增加,这导致了热管理和电力供应方面的问题。对于大规模的HPC系统,比如数据中心计算集群和超算而言,电力和冷却成本都会变得非常高。

我们拿排名靠前的几大超算系统为例,其中富岳超级计算机的系统功耗在30到40MW之间,Frontier超级计算机的系统功耗22.7MW。为了推动HPC系统充分改善能效,减少碳足迹,Green500榜单被推出,以单位瓦数的峰值算力作为参考,为的就是促进设计厂商推出能效更高的硬件,以及应用开发商对HPC软件进行进一步优化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    27459

    浏览量

    265127
  • HPC
    HPC
    +关注

    关注

    0

    文章

    291

    浏览量

    23461
  • 高性能计算
    +关注

    关注

    0

    文章

    73

    浏览量

    13314
收藏 人收藏

    评论

    相关推荐

    苹果AI服务在华面临挑战,寻求本土合作新机遇

    在科技飞速发展的今天,人工智能(AI)已成为各大科技巨头争相布局的新战场。然而,在全球第二大iPhone市场——中国,苹果公司却面临着前所未有的挑战
    的头像 发表于 06-22 16:51 706次阅读

    华为欧洲游戏沙龙聚焦土耳其,共探市场新机遇

    近日,华为主办的“领启未来”游戏行业沙龙在欧洲的土耳其盛大举行。此次沙龙以“欧洲出海”为主题,华为游戏中心携手点触游戏、FunPlus、沐瞳、NEOCRAFT、网易游戏等业界翘楚,共同探讨了欧洲游戏市场的新机遇挑战
    的头像 发表于 06-13 16:54 433次阅读

    共熵服务中心拜访香港科学园,共同探索河套国际组织深港合作新机遇

    今日,共熵服务中心(以下简称“我中心”)前往香港科学园进行拜访交流,旨在深入探讨河套国际组织与香港科学园合作的新机遇,携手推动粤港澳大湾区的科技创新与产业协同发展。
    的头像 发表于 04-17 09:13 187次阅读

    手机信号屏蔽器:隐私保护与通信安全的双刃剑

    深圳特信电子|手机信号屏蔽器:隐私保护与通信安全的双刃剑
    的头像 发表于 04-15 08:39 183次阅读

    AI时代如何确保计算安全?

    正如其他技术革新一样,人工智能 (AI) 为人们的数字体验带来了新机遇,但同时也伴随着诸多挑战
    的头像 发表于 04-09 17:07 240次阅读

    中软国际携手华海智汇共同探索智慧ICT市场新机遇

    3月20日,中软国际有限公司(以下简称中软国际)与华海智汇技术有限公司(以下简称“华海智汇”)在天津进行业务交流,旨在共同探索智慧ICT市场新机遇,加强优势互补,实现合作共赢,为全球数字化发展贡献更多力量。
    的头像 发表于 03-25 11:23 363次阅读

    人工智能赋能制造业:精益转型的新机遇

    随着科技的飞速发展,人工智能(AI)已经渗透进我们生活的方方面面,而在制造业领域,AI技术的运用更是打开了精益转型的大门。本文将探讨如何把握人工智能的新机遇,推动制造业实现精益转型,以适应日益激烈
    的头像 发表于 03-05 09:20 246次阅读

    敦泰:布局高端产品,抢抓柔性OLED市场新机遇

    2023年,面对国内外诸多挑战,敦泰科技以其OLED触控芯片、车载TDDI等产品市场份额稳步提升,收获颇丰。公司不断优化资源配置,加强OLED DDI、IDC(TDDI)芯片等高端产品的研发和生产,助力抢占柔性OLED市场的新机遇,进一步巩固其在触控与显示芯片行业的领先地
    的头像 发表于 02-29 17:52 485次阅读
    敦泰:布局高端产品,抢抓柔性OLED市场<b class='flag-5'>新机遇</b>

    三网融合推进电力猫迎来新机遇

    电子发烧友网站提供《三网融合推进电力猫迎来新机遇.doc》资料免费下载
    发表于 11-10 15:11 0次下载
    三网融合推进电力猫迎来<b class='flag-5'>新机遇</b>

    大咖说 | 解锁未来,硬科技时代的新机遇

    近日,北京大学信息科学技术学院“知存讲座”暨信息科学前沿与产业创新课程在理科教学楼顺利举行。 知存科技COO殷积磊受邀 出席, 为到场400余名学生分享了《解锁未来-硬科技时代的新机遇》主题演讲并进
    的头像 发表于 11-01 09:25 535次阅读
    大咖说 | 解锁未来,硬科技时代的<b class='flag-5'>新机遇</b>

    HPCAI:完美融合

    HPC早于AI问世,因此这两个领域在软件和基础设施方面存在显著差异。要将它们有机地融合在一起,需要对工作负载管理和工具进行必要的调整。以下是HPC如何逐步发展以迎合AI
    的头像 发表于 10-22 14:59 1080次阅读

    沈逸:中德数字互信是全球数字互信面临挑战机遇的缩影

    面临的威胁与挑战,同时明确指出,以务实的态度和长远的眼光面对未来,增强数字互信,是解决挑战机遇的唯一路径。这一报告实质性的指出,中德数字互信是全球数字互信
    的头像 发表于 10-17 10:49 434次阅读

    山东省大力发展元宇宙产业,DeepMind创始人访谈:AI像把双刃剑

    大家好,欢迎收看河套IT WALK第102期。 今天,我们为大家带来两则科技新闻。首先,我们将深入探讨DeepMind创始人对AI技术的看法,他认为AI技术就像一把双刃剑,既有巨大的潜力,也存在不少
    的头像 发表于 09-08 21:00 388次阅读
    山东省大力发展元宇宙产业,DeepMind创始人访谈:<b class='flag-5'>AI</b>像把<b class='flag-5'>双刃剑</b>

    服务京东方、康佳、洲明等,这家Mini/Micro LED设备厂商“出击”

    闭环管理系统4.0的设备及功能以及Mini Micro-LED装备面临全新机遇挑战等与参会嘉宾展开分享。
    的头像 发表于 07-12 14:58 650次阅读

    直击现场 | 西井科技受邀参加亚洲物流航运及空运会议——沪港合作新机遇分论坛

    7月7日,“亚洲物流航运及空运会议——沪港合作新机遇分论坛” (亚洲物流航运及空运会议,以下简称“ALMAC”)在滴水湖畔举行。本次论坛由上海市贸促会、香港贸发局及临港集团联合举办,来自政府、研究
    的头像 发表于 07-08 15:40 479次阅读
    直击现场 | 西井科技受邀参加亚洲物流航运及空运会议——沪港合作<b class='flag-5'>新机遇</b>分论坛