嵌入式工程师需要的10技能
数据中心的热设计何时变得如此重要?
在过去三四年的时间里,为了应对来自银行、医院、政府部门、电信运营商和各类托管机构不断增长的信息存储和传输需求,数据中心的应用在全球范围内如雨后春笋般蓬勃发展。数据中心的功率载荷(以及相应的散热)足迹也与日俱增,截至2020年,来自数据中心的温室气体排放量预期将超过航空业排放量 。数据中心现已消耗全美约 2% 的总电力,并且还在以约 12% 的年复合增长率增长。
在数据中心的运营成本中,散热占据了重要部分。因此,人们越来越关注如何最大限度降低数据中心的能源使用,从而降低运营成本。数据中心设计一贯的目标是,确保维持尽可能低,换言之,接近于一(即 1.0)的能源使用效率 (PUE)。
数据中心的热设计何时变得至关重要?
服务器机架的功率密度与日俱增,从几年前的每机架约 1-3 KW 增加至目前的每机架 24-30 KW。热问题是多种故障的源头,因此,必须确保服务器和交换机保持冷却状态。特别是,电子产品的故障率随温度的上升急剧升高,与此同时,较大的温度变化给焊点带来的高热应力也成为了另一个故障源。随着数据中心提供的可靠率日益受到重视,它已成为人们关注的焦点问题之一。反过来,它也促使人们更加重视数据中心的监控和报告,以确保数据设备不会发生故障。
监控和报告对运营中的数据中心而言非常重要。对于具有当前服务器功率水平的新建数据中心,以及对原有空间进行改造或将现有机架中的旧服务器置换为新服务器等情形而言,由于功率密度远高于从前,因此出现热故障的可能性更高。如果需要达到数据中心的设计容量,经过 CFD 仿真验证的热设计将是不可或缺的。
数据中心设计
1: 始于数据大厅设计之时
考虑数据中心热设计的最佳时机是在建置前阶段(旨在实现绿色环保建筑)。这意味着从一开始就可以考虑以下事项:
■ 整体 HVAC 系统,例如采用高架地板设计、管线散热方法、共用或单体机架通气管、专用机架散热装置、吊顶装置等
■ 确定 HVAC 系统后,考虑铺线和管道布置
■ 对机房空调 (CRAC) 和其他散热装置、单独的服务器和/或机架、冗余设备等实施热交换方法
请注意,改造和故障排除也可以并且应该使用 CFD 模型进行处理,因为其中一些改动的成本可能非常高,譬如从高架地板改为管线散热等。使用 CFD 可确保针对传统数据中心做出明智的选择,并在实际实施更改之前通过仿真方法加以确认。
遵循以上建议,Mentor Graphics Corporation 在 Wilsonville 和 Shannon 设立的地区自有数据中心的 PUE 现已达到约 1.15 到 1.2。针对全球范围内的 PUE 值分布,目前还没有可用的真实数据,但许多数据中心的PUE 高达 3.0 甚至更高,而事实上,1.6 的 PUE 是完全可以实现的。劳伦斯伯克利国家实验室完成的测量表明,被测的 22 家数据中心的 PUE 值介于 1.3 到 3.0 范围以内。
2: 构建简单的数据大厅模型
包含各种关键特性,例如整体结构、高架地板(如果有)、空气调节/散热装置、机架/服务器、大型架空地板堵塞(如果有)和通风地板(如果有)等。以下是使用 FloTHERM 提供的一个小型数据中心模型。该模型可用于教学用途,或作为构建另一个数据中心模型的起点。
图 1:FloTHERM V10 附带的传统高架地板数据中心模型
3: 从 CAD 导入数据
可以从 CAD 模型或 DXF 文件导入数据中心设计,或者通过使用 FloTHERM FloXML 架构核查来自 DCIM 或类似软件的合适数据来导入数据中心设计。对于后一种情形,我们稍后将会进行详细讨论。如果需要,可以将项目替换为合适的 FloTHERM SmartPart 或库表示。
FloTHERM 提供用于 CRAC 装置以及多孔板、散热机、机架和服务器的各种 SmartPart。SmartPart 表示中内置的智能可提供更高的准确度。例如,Rack SmartPart 可正确地考虑机架及机架内服务器的空气分层。通过定义合适的“网格约束”等方法可以添加合适的网格,以确保在分析过程中始终使用足够的网格来表示网格。FloTHERM 中的“模式”功能在定义重复的机架和/或通风地板行方面非常有用。
图 2:FloTHERM 中的 Cooler SmartPart 构建对话框
在模型的这一初始版本中,可使用每个机架相对简单的表示来轻松确定数据中心的相对性能。特别是,机架将作为单个构造块使用 FloTHERM Rack SmartPart 进行建模,同时还具备适当的功耗,以及通过机架的流量或机架入口和出口之间的气流温升。类似地,可使用 Perforated Plate SmartPart,通过简单的压降与速度表示来对通风地板进行建模。
5: 考虑备选设计
此阶段的目标是探索尽可能多的设计选择,以便从中选出最合适的数据大厅设计。这取决于多个因素,包括:
■ 数据中心内的机架功率密度及其分布。尽管机架往往是根据功能或功率密度聚集到一起的,但空间内的散热要求可能差异很大,并且可能需要补充散热。
■ 可供设计使用的空间框架。例如,在机架上使用通气管可能需要当前用于铺线、照明的高规格基板面。
最简单的选择是使用开放式机架通道,并且使用单独的通风地板或管线式散热机来为机架提供冷空气。此布置通常在“热空气”和/或“冷空气”设计中使用,其中的机架行出口或入口彼此相对。但是,从环境中排放的热空气很容易绕过散热基础设施并被吸回到机架中。于是就会降低散热效果,导致需要远超过所需数量的散热装置才能使 IT 设备保持足够低的温度,PUE 也会因此相对较高。
可采用多种策略来改进数据大厅的热设计,例如:
■ 冷通道隔离
■ 热通道隔离
■ 管线式散热装置
■ 后舱门换热器
■ 专用机架散热装置,例如液体散热
■ 吊顶式 HVAC 系统
■ 专用机架通气管/排放管道
■ 搭配 CRAC 装置的蒸发式自由空气散热
图 3:带专用机架通气管的吊顶式 HVAC 系统
使用 CFD 可以快速、有效地评估上述所有选择。
6: 研究不同的运营情形
CFD 可用于对数据中心填充过程中发生的条件变化进行建模。尽管数据中心通常是根据功能或功率密度进行填充的,但在群体坡道效应和预期生命周期方面仍采用不同的策略。例如,数据中心可能有大量需要在指定时段内填充的扩展空间。
在容量较低时,一些散热策略会导致 PUE 高于其他策略,因此应寻求能够在数据中心的设计寿命内提供最低总能耗的设计。使用 CFD 可确保散热策略与数据中心容量高效匹配,以及确定填充数据中心容量的最佳方法,从而最大限度降低终生运营成本。
同理,不同的操作条件也可作为基准模型迭代加以考虑,例如,在资产利用率较低时,散热装置的功率载荷(及相应的热载荷)、流量和操作等条件所发生的变化。CFD 还可用于研究使用指定的散热策略时可应用于各个机架的最大功率,以帮助了解数据中心设计将如何配合未来的更高功率服务器,等。CFD 还可用于确定设备故障造成的影响,例如,由于 CRAC 设备故障导致重要位置发生的随时间变化的(瞬态)温度响应。
7: 使用捕捉指数来判断设计适应性
捕捉指数 (CI) 为数据中心设计提供了一项重要工具。在确定设计优劣时,数据中心内的温度分布并不总是最有效的方法,因此,有时可能无法为设计人员提供实施改进方面的指导。特别是,温度分布是数据中心设计的“症状”而非“根源”。
可使用两种形式的捕捉指数:冷通道 CI 和热通道 CI.二者通常都表示为百分比。两种指数越接近 100%,散热系统的性能就越接近于“理想”情形。您可随时使用此数据针对不同的备选设计制表,从而实现快速、轻松的比较。
图 4:热通道和冷通道捕捉指数的计算示例
8: 最大限度缩短模型运行时间
利用 FloTHERM 独有的局域化网格技术,用户可实现快速仿真周转时间。
图 5:通过机架展示局域化网格的传统数据中心设计。
局域化网格可防止出现网格“膨胀”现象,即小型网格单元不必要地延伸至几何形状以外的环境空气中。由于该功能可以更清晰地分离粗网格区域和细网格区域,因此非常适合数据中心应用。假定这些网格线在所有三个方向膨胀,并且总网格数为所有三个方向的单元数量乘积,则通过使用此技术可大幅减少单元数目。
机架散热、CRAC/散热机工作条件等典型的变量扰动对于数据中心内的总气流和温度分布造成的影响相对较小。因此,数据中心应用非常适合使用现有“基准”模型的结果作为后续分析的起点,以便缩短解决方案时间,因为这样可以减少研究不同操作情形所需的迭代次数,并且在布局发生变化时也能起到作用。
最后,FloTHERM V10 中并行处理器求解器的速度提升似乎特别适合数据中心应用,与前一版本相比,某些情况下的速度提升超过 10 倍。
9: 使用命令中心来优化数据中心设计
命令中心包含的实验和优化设计功能是标准 FloTHERM 软件的一部分,利用该功能,用户可以优化数据中心设计。例如,用户可优化通过 CRAC 装置的流量,使得特定机架或机架阵列获得需要的入口温度。
图 6 显示了访问流量变量的命令中心对话框示例。请注意,其中还提供了 CRAC 容量等其他变量。
图 6:展示访问来自数据中心示例情形的 CRAC 装置变量的示例对话框
数据中心试运行
10: 创建基于电子表格的前端
利用 FloTHERM 软件中包含的 FloXML 架构,无需实际打开 FloTHERM 即可创建/运行数据中心模型或对其进行后处理。因此,它非常适合非专家级 CFD 用户,例如被要求为某项数据中心设计排除故障的现场工程师。
数据可直接输入到电子表格中,或者通过第三方源(例如包含机架物理尺寸、功率耗散等分析所需信息的 DCIM 软件工具)进行求解。然后,此可配置电子表格前端可创建 FloXML 定义,而该定义本身就是一个可随时求解(通过命令行)的 FloTHERM 模型。
然后可使用免费下载的 FloVIZ 软件查看结果,将其传回到后处理工具或捕捉到电子表格中。图 7 中的示例显示了此过程,图 8 中则显示了 FloXML 文件自身的一个示例。自 V10 版本以后,此类电子表格和FloXML 文件示例将随 FloTHERM 软件一同安装。
图 7:基于 Excel 的 CFD 分析过程和结果后处理
图 8:数据中心案例的 XML 架构示例
数据中心运营
11: 对变更通知单产生的影响进行仿真
在运营期间,任何时候在收到增加新 IT 资产或移动现有资产的变更通知单时,都可以在实施变更之前,通过在以上创建的电子表格中进行必要的更改,来对变更给数据中心总体运营带来的影响进行检查。在使用边界机房空调 (CRAC) 装置的传统设计中,由于数据中心内总气流模式的改变,引入新资产或移动现有资产可能会对远程位置的设备造成无法预料的后果。其他散热策略即便在回流、分层和旁路方面具有卓越的性能,但在设备散热方面同样面临挑战。
结束语
传统的边界 CRAC 装置布局侧重于机房级设计,之后才会考虑其中包含的机架和设备。近期的设计方法(例如通道隔离),特别是液体散热机架,则侧重于单独设备的散热,而忽视了整个机房/冷通道的空气散热需求。两种情形都假定数据大厅内的气流环境能够适应从试运行到满载荷运行所用的散热方法。
我们主张采用整体方法。在此方法中,散热策略在数据中心设计期间经过 CFD 仿真验证,从一开始便可满足此业务目标,并且在试运行和运营期间,通过使用 CFD 来确保资产部署在面对不断变化的业务需求和不断增长的设备能耗背景下,仍可实现符合设计容量的利用率。
非常好我支持^.^
(0) 0%
不好我反对
(19) 100%
相关阅读:
- [电子说] fpga的开发流程有哪些步骤?fpga和嵌入式系统的区别在哪里? 2023-10-24
- [电子说] STM32H7芯片系列中定时器同步启动并输出PWM波形的实现方法 2023-10-24
- [电子说] STM32H7时钟I/O响应频率和定时器最高频率的测试方法 2023-10-24
- [人工智能] 研华推出EPC-B3000系列嵌入式工控机,搭载先进X86架构CPU,助力边缘人工智能应用 2023-10-24
- [嵌入式技术] 探讨嵌入式系统的软硬件框架 2023-10-24
- [电子说] 专题一:为何选择rk3588开发与Jetson Nano引脚兼容的嵌入式产品 2023-10-23
- [电子说] 专题二:为何选择rk3588开发与Jetson Nano引脚兼容的嵌入式产品之规格对比 2023-10-23
- [电子说] GPU是否有替代方案? 2023-10-23
( 发表人:林锦翔 )