0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

采用GPU求解大幅提升性能的CFD模型

jf_0T4ID6SG 来源:Ansys 作者:Steve Defibaugh 2022-10-17 09:56 次阅读

你可以设想一下,如果每项任务都能节省几分钟、几小时甚至几天的时间,那一整年下来能节省多少时间啊。如果任务涉及计算流体动力学(CFD)仿真,且希望减少求解时间,那么Ansys Fluent GPU求解器正是您想要的解决方案。

无论是求解10万个单元还是1亿个单元的模型,传统的减少仿真时间的方法都是使用大量CPU进行求解。近年来,另一种方法开始受到行业的关注,那就是使用图形处理单元,简称GPU。这种方法首先是将CPU求解的某些部分交给GPU来处理,从而加速整体求解时间,这种做法被称为“转移”到GPU。

早在2014年,Ansys Fluent就采用了这项“转移”技术,而今年我们则将GPU技术的使用发挥到全新的高度,在Fluent中推出了原生多GPU(multi-GPU)求解器。本地部署方案能提供GPU上的所有求解器特性,避免CPU和GPU之间因交换数据造成的开销,从而相对于转移技术能实现更好的提速。

释放GPU对CFD的全部潜力需要将整个代码运行在GPU上。

在系列博客的上半部分中,我们重点介绍了大型汽车外气动仿真的32倍提速案例,不过并非所有用户的仿真模型能达到如此大的规模。本文作为系列内容的下半部分,将重点介绍GPU针对包含更多物理功能的小规模模型的优势,如多孔介质和共轭传热(CHT)。

各种不同规模的CFD仿真提速

从51.2万个单元到700多万个单元,本文介绍的模型采用GPU求解都能大幅提升性能。而且无需采用最昂贵的服务器级GPU就能大幅提升性能,因为Fluent GPU求解器可以使用您的笔记本或工作站GPU就能显著缩短求解时间。口说无凭,请继续往下看,了解原生多GPU求解器如何实现提速:

进气系统提速8.32倍

牵引逆变器提速8.6倍

两种不同的换热器设计分别提速15.47倍和11倍

通过多孔过滤器的气流

汽车进气系统吸入的气体通过过滤器清除杂物,让清洁空气进入引擎。这个仿真涉及710万个单元,过滤器模型为多孔介质,粘滞阻力为1e+8m-2,惯性阻力为2,500m-1。空气流入进气系统的质量流率为0.08kg/s。

用一个NVIDIA A100 GPU求解后,优化进气系统可实现8.32倍的提速。

我们采用四种不同的硬件配置求解该模型,三种配置采用Intel Xeon Gold 6242核心,一种配置采用一个NVIDIA A100 Tensor Core GPU。

使用单个NVIDIA A100 GPU相对于采用32个Intel Xeon Gold核心求解而言,能提速8.3倍。

73f90214-4d6d-11ed-a3b6-dac502259ad0.png

使用单个NVIDIA A100 GPU仿真通过多孔介质的气流相对于32个Intel Xeon Gold核心而言,能实现8.3倍的提速

使用共轭传热建模(CHT)进行热管理

在许多工业应用中,考虑到流体流动时造成的热效应至关重要。为准确捕获系统的热行为,流体的传热与相邻金属的热传导耦合往往非常重要。我们的原生GPU求解器针对这种耦合CHT问题展示出了强大的提速特性。

以下给出三种涉及CHT的不同热仿真,一个为400万个单元的水冷式牵引逆变器,一个为140万个单元的百叶窗翅片换热器,还有一个为512,000个单元的立式散热器。

水冷式牵引逆变器

涉及CHT的牵引逆变器仿真采用一个NVIDIA A100 GPU求解,可实现8.6倍的提速。

牵引逆变器从高压电池获得直流电(DC),并将其转为交流电(AC)发送给电机。热管理对牵引逆变器确保安全性和长期使用寿命至关重要。

以上所示模型为400万个单元的水冷式牵引逆变器,其具有4个绝缘栅双极晶体管IGBT),热负载为400 W。25℃的水以0.5 kg/s的速度流过外壳实现制冷,并使用对流边界条件对周围空气的热消耗进行建模。

采用一个NVIDIA A100 GPU求解问题,相对于32个Intel Xeon Gold 6242核心而言,可提速8.6倍。

百叶窗翅片换热器

换热器模型通过百叶窗翅片换热器实现强制对流。这个待求解的问题涉及20℃的空气以4 m/s的速度通过铝制百叶窗翅片,以实现铜管制冷。

为获得基准,我们在8个Intel Xeon Gold 6242核心上运行了140万个单元的模型。在一个NVIDIA A100 GPU上运行完全相同的模型,可实现15.5倍的提速。

百叶窗翅片换热器的温度分布在一个NVIDIA A100上求解速度快15.47倍。

77f60b28-4d6d-11ed-a3b6-dac502259ad0.png

对百叶窗翅片换热器而言,单GPU求解可实现15.47倍的提速

立式散热器

最后一个问题涉及一个自由对流五翅片铝制散热器,基座保持恒温76.85℃,周边空气环境温度为16.85℃。

使用安装有一个NVIDIA Quadro RTX 5000 GPU的一台笔记本电脑求解包含512,000个单元的外壳,相对于采用六核Intel Core i7-11850H的笔记本电脑而言,可实现11倍的提速。

即便只采用一个NVIDIA Quadro RTX 5000笔记本显卡GPU,使用Fluent中的原生多GPU求解器也能大幅缩短求解时间。如果采用类似的工作站图形卡,还能进一步提高性能。

采用一个NVIDIA Quadro RTX 5000 GPU进行求解,512,000个单元的散热器仿真能实现11倍的提速。

通过GPU实现CFD仿真变革

Fluent用户现在能在只有一个GPU的笔记本或工作站上获得强大功能和灵活性,当然也可以扩展至多GPU服务器上。利用您已有的硬件加速CFD仿真,获得的提速超过您的想象。

Fluent中的原生多GPU求解器能运行在2016年之后推出的任何NVIDIA卡上,安装的驱动程序版本不低于11.0或更新版本。

Ansys在GPU技术运用于仿真领域一直是领军者,凭借新型求解器技术,将我们的技术水平提升到新的高度。原生GPU求解器中的所有特性都采用与Fluent CPU求解器相同的离散和数值方法,能在更短的时间内为用户提供他们所期待的准确结果。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4604

    浏览量

    128221
  • 服务器
    +关注

    关注

    12

    文章

    8750

    浏览量

    84654
  • CFD
    CFD
    +关注

    关注

    1

    文章

    99

    浏览量

    18254
  • 求解器
    +关注

    关注

    0

    文章

    77

    浏览量

    4475

原文标题:Ansys Fluent:全力释放GPU的无限潜力(下)

文章出处:【微信号:西莫电机论坛,微信公众号:西莫电机论坛】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    模型发展下,国产GPU的机会和挑战

    电子发烧友网站提供《大模型发展下,国产GPU的机会和挑战.pdf》资料免费下载
    发表于 07-18 15:44 6次下载
    大<b class='flag-5'>模型</b>发展下,国产<b class='flag-5'>GPU</b>的机会和挑战

    RaftKeeper v2.1.0版本发布,性能大幅提升!

    新特性,包括异步创建 snapshot。该版本的最大亮点在于性能优化:写请求性能提升 11%, 读写混合场景更是大幅提升了 118% 。本文
    的头像 发表于 07-15 15:10 231次阅读
    RaftKeeper v2.1.0版本发布,<b class='flag-5'>性能</b><b class='flag-5'>大幅</b><b class='flag-5'>提升</b>!

    摩尔线程与智谱AI完成大模型性能测试与适配

    近日,摩尔线程与智谱AI在人工智能领域开展了一轮深入的合作,共同对GPU模型进行了适配及性能测试。此次测试不仅涵盖了大模型的推理能力,还涉及了基于摩尔线程夸娥(KUAE)千卡智算集群
    的头像 发表于 06-14 16:40 804次阅读

    采用笛卡尔网格的积鼎Virtualflow,如何平衡CFD模拟的精度与效率?

    Virtualflow是一款专注于多相流仿真的国产自主CFD软件,采用笛卡尔网格技术,为用户提供了一个高效、易用的一站式流体仿真平台。 采用独创的浸没表面技术(IST),可实现导入CAD文件后,自动
    的头像 发表于 05-22 13:58 376次阅读
    <b class='flag-5'>采用</b>笛卡尔网格的积鼎Virtualflow,如何平衡<b class='flag-5'>CFD</b>模拟的精度与效率?

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    人工智能模型在规模和复杂性上呈指数级增长,对先进计算能力和内存容量的需求变得至关重要。Blackwell图形处理器架构通过在性能和效率方面实现大幅跃升,解决了这些需求。 HGX B200 训练
    发表于 05-13 17:16

    模型时代,国产GPU面临哪些挑战

    电子发烧友网报道(文/李弯弯)随着人工智能技术的快速发展,对GPU计算能力的需求也越来越高。国内企业也正在不断提升GPU性能,以满足日益增长的应用需求。然而,相较于国际巨头,国内
    的头像 发表于 04-03 01:08 4453次阅读
    大<b class='flag-5'>模型</b>时代,国产<b class='flag-5'>GPU</b>面临哪些挑战

    国产GPU在AI大模型领域的应用案例一览

    电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPU在AI领域的重要性再次凸显。虽然相比英伟达等国际大厂,国产GPU起步较晚、声势较小。不过近几年,国内不少GPU厂商成
    的头像 发表于 04-01 09:28 3480次阅读
    国产<b class='flag-5'>GPU</b>在AI大<b class='flag-5'>模型</b>领域的应用案例一览

    FPGA在深度学习应用中或将取代GPU

    现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题 在过去的十年里,人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅
    发表于 03-21 15:19

    英伟达发布性能大幅提升的新款B200 AI GPU

    英伟达宣称,B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代,运算能力飞跃性提升,甚至能使大语言模型的训练速度翻番。
    的头像 发表于 03-20 09:37 633次阅读

    英伟达H200性能怎么样

    英伟达H200性能卓越,集成了高性能CPU和GPU,通过高速NVLink连接,消除了传统计算瓶颈。其配备了高达141GB的HBM3e高带宽内存,大幅
    的头像 发表于 03-07 16:39 808次阅读

    全新Ansys Fluent Web用户界面支持访问大规模多GPU CFD仿真

    基于Web的技术将释放云计算的强大功能,加速CFD仿真,从而减少对硬件资源的依赖
    的头像 发表于 02-25 09:59 492次阅读

    应用大模型提升研发效率的实践与探索

    对于模型训练,我们可以采用 3D 并行训练的方式来实现。将模型参数和梯度张量划分为多个分区,分配到不同 GPU 卡上进行计算。每张卡负责自己分区的梯度和参数更新工作,间隔时同步到其他卡
    的头像 发表于 02-22 11:47 524次阅读
    应用大<b class='flag-5'>模型</b><b class='flag-5'>提升</b>研发效率的实践与探索

    揭秘GPU: 高端GPU架构设计的挑战

    在计算领域,GPU(图形处理单元)一直是性能飞跃的代表。众所周知,高端GPU的设计充满了挑战。GPU的架构创新,为软件承接大模型训练和推理场
    的头像 发表于 12-21 08:28 747次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b>架构设计的挑战

    NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

    通过 Merlin 大幅提升大规模深度多目标精排模型训练性能 本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA GPU
    的头像 发表于 11-09 10:45 277次阅读
    NVIDIA Merlin 助力陌陌推荐业务实现高<b class='flag-5'>性能</b>训练优化

    求解大型COMSOL模型需要多少内存?

    求解大型COMSOL模型需要多少内存? COMSOL是一种非常强大的跨学科有限元分析软件,可以用于解决各种复杂的问题,包括流体力学、电磁学、热传递、结构力学等。但是,在处理大型模型时,COMSOL
    的头像 发表于 10-29 11:35 1585次阅读