采用GPU求解大幅提升性能的CFD模型-电子发烧友网

你可以设想一下，如果每项任务都能节省几分钟、几小时甚至几天的时间，那一整年下来能节省多少时间啊。如果任务涉及计算流体动力学（CFD）仿真，且希望减少求解时间，那么Ansys Fluent GPU求解器正是您想要的解决方案。

无论是求解10万个单元还是1亿个单元的模型，传统的减少仿真时间的方法都是使用大量CPU进行求解。近年来，另一种方法开始受到行业的关注，那就是使用图形处理单元，简称GPU。这种方法首先是将CPU求解的某些部分交给GPU来处理，从而加速整体求解时间，这种做法被称为“转移”到GPU。

早在2014年，Ansys Fluent就采用了这项“转移”技术，而今年我们则将GPU技术的使用发挥到全新的高度，在Fluent中推出了原生多GPU（multi-GPU）求解器。本地部署方案能提供GPU上的所有求解器特性，避免CPU和GPU之间因交换数据造成的开销，从而相对于转移技术能实现更好的提速。

释放GPU对CFD的全部潜力需要将整个代码运行在GPU上。

在系列博客的上半部分中，我们重点介绍了大型汽车外气动仿真的32倍提速案例，不过并非所有用户的仿真模型能达到如此大的规模。本文作为系列内容的下半部分，将重点介绍GPU针对包含更多物理功能的小规模模型的优势，如多孔介质和共轭传热（CHT）。

各种不同规模的CFD仿真提速

从51.2万个单元到700多万个单元，本文介绍的模型采用GPU求解都能大幅提升性能。而且无需采用最昂贵的服务器级GPU就能大幅提升性能，因为Fluent GPU求解器可以使用您的笔记本或工作站GPU就能显著缩短求解时间。口说无凭，请继续往下看，了解原生多GPU求解器如何实现提速：

进气系统提速8.32倍

牵引逆变器提速8.6倍

两种不同的换热器设计分别提速15.47倍和11倍

通过多孔过滤器的气流

汽车进气系统吸入的气体通过过滤器清除杂物，让清洁空气进入引擎。这个仿真涉及710万个单元，过滤器模型为多孔介质，粘滞阻力为1e+8m-2，惯性阻力为2,500m-1。空气流入进气系统的质量流率为0.08kg/s。

用一个NVIDIA A100 GPU求解后，优化进气系统可实现8.32倍的提速。

我们采用四种不同的硬件配置求解该模型，三种配置采用Intel Xeon Gold 6242核心，一种配置采用一个NVIDIA A100 Tensor Core GPU。

使用单个NVIDIA A100 GPU相对于采用32个Intel Xeon Gold核心求解而言，能提速8.3倍。

使用单个NVIDIA A100 GPU仿真通过多孔介质的气流相对于32个Intel Xeon Gold核心而言，能实现8.3倍的提速

使用共轭传热建模（CHT）进行热管理

在许多工业应用中，考虑到流体流动时造成的热效应至关重要。为准确捕获系统的热行为，流体的传热与相邻金属的热传导耦合往往非常重要。我们的原生GPU求解器针对这种耦合CHT问题展示出了强大的提速特性。

以下给出三种涉及CHT的不同热仿真，一个为400万个单元的水冷式牵引逆变器，一个为140万个单元的百叶窗翅片换热器，还有一个为512,000个单元的立式散热器。

水冷式牵引逆变器

涉及CHT的牵引逆变器仿真采用一个NVIDIA A100 GPU求解，可实现8.6倍的提速。

牵引逆变器从高压电池获得直流电（DC），并将其转为交流电（AC）发送给电机。热管理对牵引逆变器确保安全性和长期使用寿命至关重要。

以上所示模型为400万个单元的水冷式牵引逆变器，其具有4个绝缘栅双极晶体管（IGBT），热负载为400 W。25℃的水以0.5 kg/s的速度流过外壳实现制冷，并使用对流边界条件对周围空气的热消耗进行建模。

采用一个NVIDIA A100 GPU求解问题，相对于32个Intel Xeon Gold 6242核心而言，可提速8.6倍。

百叶窗翅片换热器

换热器模型通过百叶窗翅片换热器实现强制对流。这个待求解的问题涉及20℃的空气以4 m/s的速度通过铝制百叶窗翅片，以实现铜管制冷。

为获得基准，我们在8个Intel Xeon Gold 6242核心上运行了140万个单元的模型。在一个NVIDIA A100 GPU上运行完全相同的模型，可实现15.5倍的提速。

百叶窗翅片换热器的温度分布在一个NVIDIA A100上求解速度快15.47倍。

对百叶窗翅片换热器而言，单GPU求解可实现15.47倍的提速

立式散热器

最后一个问题涉及一个自由对流五翅片铝制散热器，基座保持恒温76.85℃，周边空气环境温度为16.85℃。

使用安装有一个NVIDIA Quadro RTX 5000 GPU的一台笔记本电脑求解包含512,000个单元的外壳，相对于采用六核Intel Core i7-11850H的笔记本电脑而言，可实现11倍的提速。

即便只采用一个NVIDIA Quadro RTX 5000笔记本显卡GPU，使用Fluent中的原生多GPU求解器也能大幅缩短求解时间。如果采用类似的工作站图形卡，还能进一步提高性能。

采用一个NVIDIA Quadro RTX 5000 GPU进行求解，512,000个单元的散热器仿真能实现11倍的提速。

通过GPU实现CFD仿真变革

Fluent用户现在能在只有一个GPU的笔记本或工作站上获得强大功能和灵活性，当然也可以扩展至多GPU服务器上。利用您已有的硬件加速CFD仿真，获得的提速超过您的想象。

Fluent中的原生多GPU求解器能运行在2016年之后推出的任何NVIDIA卡上，安装的驱动程序版本不低于11.0或更新版本。

Ansys在GPU技术运用于仿真领域一直是领军者，凭借新型求解器技术，将我们的技术水平提升到新的高度。原生GPU求解器中的所有特性都采用与Fluent CPU求解器相同的离散和数值方法，能在更短的时间内为用户提供他们所期待的准确结果。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4768

浏览量
129310
服务器

服务器

+关注

关注
12

文章
9295

浏览量
85982
CFD

CFD

+关注

关注
1

文章
121

浏览量
18466
求解器

求解器

+关注

关注
0

文章
77

浏览量
4553

原文标题：Ansys Fluent：全力释放GPU的无限潜力（下）

文章出处：【微信号：西莫电机论坛，微信公众号：西莫电机论坛】欢迎添加关注！文章转载请注明出处。

英国政府计划大幅提升AI算力

近日，英国首相斯塔默宣布了一项雄心勃勃的计划，承诺到2030年，英国政府将采购多达10万块图形处理器(GPU)，以大幅提升英国的AI算力水平。据悉，这一举措旨在将英国主权AI算力增加20倍，从而

发表于 01-14 14:18 •164次阅读

借助NVIDIA GPU提升鲁班系统CAE软件计算效率

本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU，实现复杂产品的快速仿真，加速产品开发和设计迭代，缩短开发周期，提升产品竞争力。

发表于 12-27 16:24 •229次阅读

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解GPU是如何训练AI大模型的。

发表于 12-19 17:54 •222次阅读

《CST Studio Suite 2024 GPU加速计算指南》

许可证模型的加速令牌或SIMULIA统一许可证模型的SimUnit令牌或积分授权。 4. GPU计算的启用 - 交互式模拟：通过加速对话框启用，打开求解器对话框，点击“加速”按钮，打

发表于 12-16 14:25

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构，在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈，合并访存机制巧妙解决了内存带宽限制。NVIDIA

发表于 11-24 17:12

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和方法来利用GPU进行模型训练。 1. 了解

发表于 11-05 17:43 •627次阅读

如何提高GPU性能

在当今这个视觉至上的时代，GPU（图形处理单元）的性能对于游戏玩家、图形设计师、视频编辑者以及任何需要进行高强度图形处理的用户来说至关重要。GPU不仅是游戏和多媒体应用的心脏，它还在科学计算、深度

发表于 10-27 11:21 •931次阅读

为什么ai模型训练要用gpu

GPU凭借其强大的并行处理能力和高效的内存系统，已成为AI模型训练不可或缺的重要工具。

发表于 10-24 09:39 •403次阅读

GPU高性能服务器配置

GPU高性能服务器作为提升计算速度和效率的关键设备，在各大应用场景中发挥着越来越重要的作用。在此，petacloud.ai小编为你介绍GPU高性能

发表于 10-21 10:42 •284次阅读

RaftKeeper v2.1.0版本发布，性能大幅提升!

新特性，包括异步创建 snapshot。该版本的最大亮点在于性能优化：写请求性能提升 11%，读写混合场景更是大幅提升了 118% 。本文

发表于 07-15 15:10 •371次阅读

摩尔线程与智谱AI完成大模型性能测试与适配

近日，摩尔线程与智谱AI在人工智能领域开展了一轮深入的合作，共同对GPU大模型进行了适配及性能测试。此次测试不仅涵盖了大模型的推理能力，还涉及了基于摩尔线程夸娥（KUAE）千卡智算集群

发表于 06-14 16:40 •1148次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

人工智能模型在规模和复杂性上呈指数级增长，对先进计算能力和内存容量的需求变得至关重要。Blackwell图形处理器架构通过在性能和效率方面实现大幅跃升，解决了这些需求。 HGX B200 训练

发表于 05-13 17:16

大模型时代，国产GPU面临哪些挑战

电子发烧友网报道（文/李弯弯）随着人工智能技术的快速发展，对GPU计算能力的需求也越来越高。国内企业也正在不断提升GPU性能，以满足日益增长的应用需求。然而，相较于国际巨头，国内

发表于 04-03 01:08 •4740次阅读

FPGA在深度学习应用中或将取代GPU

现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题在过去的十年里，人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公司的股价也大幅

发表于 03-21 15:19

英伟达发布性能大幅提升的新款B200 AI GPU

英伟达宣称，B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上一代，运算能力飞跃性提升，甚至能使大语言模型的训练速度翻番。

发表于 03-20 09:37 •865次阅读

搜索历史

采用GPU求解大幅提升性能的CFD模型

评论

英国政府计划大幅提升AI算力

借助NVIDIA GPU提升鲁班系统CAE软件计算效率

GPU是如何训练AI大模型的

《CST Studio Suite 2024 GPU加速计算指南》

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

PyTorch GPU 加速训练模型方法

如何提高GPU性能

为什么ai模型训练要用gpu

GPU高性能服务器配置

RaftKeeper v2.1.0版本发布，性能大幅提升!

摩尔线程与智谱AI完成大模型性能测试与适配

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

大模型时代，国产GPU面临哪些挑战

FPGA在深度学习应用中或将取代GPU

英伟达发布性能大幅提升的新款B200 AI GPU