2023年度液冷基础设施市场份额达到61.3%,连续3年蝉联行业榜首,根据《液冷数据中心白皮书》,曙光数创再次交出亮眼成绩单。
智算快速发展环境下,其实不止曙光数创,整个行业的液冷正呈现高速发展态势。曙光数创副总裁兼CTO张鹏博士在接受采访时预测: “ 液冷整体渗透率目前并不高,不超过 10%,但未来3到5年这个比例将快速提高,有望达到30%甚至40% 。” 《中国液冷数据中 心市场深度研究报告》也显示,目前中国液冷数据中心市场快速发展,预计到2027年, 液冷市场将以60%的复合增长率,突破千亿规模。
液冷的两种主要技术路线——冷板式与浸没式的发展趋势如何,目前挑战是什么,如何 应对等成为行业热议话题。
液冷是高效散热必需
真正价值是激活芯片计算潜能
大模型等人工智能快速发展下,智算产业迅速拓展,据中国信通院统计,截至2023年底,我国 智算规模约69 EFLOPS,相较于2023年6月的50EFLOPS,半年时间规模增加38%,但在推动 数据中心产业的同时,也给数据中心散热带来巨大挑战。
GPU芯片功率不断提升,高密度成为发展趋势。风冷有其制冷极限,无法满足服务器及数据中心 的散热要求,而同体积液体带走的热量是同体积空气的3000倍以上,能够高效降温,保证芯片 的安全运行。因此, 液冷被公认为是算力基础设施的标配与必然选择。
在此基础上,液冷应用的成本不断降低 。张鹏表示, 经过测算,当数据中心机架部署密度超过 10kW后,冷板式液冷系统的初始投资已经低于风冷,并且随着运行时间的增长, TCO (总体拥 有成本)优势会更为明显 。液冷还能够促进节能减碳,其高效率制冷的能力可大幅度减少散热的 电能消耗,让数据中心实现低PUE,符合政策要求与绿色化发展趋势。
尤为值得注意的是, 液冷能够激活计算的潜能,这也是其真正价值所在 。张鹏指出, GPU频率是 可变的,如果制冷能力不足,为了安全稳定的运行, GPU就需要降频,而这就影响了计算能力。 换句话说, 散热能力差束缚了芯片算力的输出。液冷可高效地解决这-问题,确保芯片计算能力 的全火力输出 。“ 以某国产CPU芯片为例,风冷条件下2.4GHz的CPU在相变浸没液冷环境下主 频可达到3.2GHz,处理速度提升超过30%! ” 张鹏说。
这些均推动了液冷应用的快速发展,行业客户逐步增多,包括互联网、运营商、金融等,同时, 相较于改造,目前液冷的使用主要以新增的数据中心为主 。张鹏表示,改造面临很多现实问题, 如维保需要结合数据中心现有情况提供更完善的方案,可靠性需进行综合考量;如服务器有着 — 定的使用年限,改造投入后,企业收益能否覆盖成本、满足商业需要也存在—定疑虑。
冷板式是当前主流
浸没式未来将广泛应用
面向大模型的智算需求,为释放芯片算力,液冷已经成为大趋势。从目前应用情况来看,冷板式 是液冷主流。张鹏指出, 目前冷板式在液冷市场约占大概80%到90%, 这是因为冷板式的成本 更低,产业链也更为成熟,同时,冷板式与风冷在运维上差异较小,使用习惯—致,市场接受程 度更高。
与之相对应的,浸没式的运维逻辑不同,比如风冷中没有换液等运维步骤,考虑到浸没式的成本 与后续运维,张鹏直言,目前小型数据中心不推荐上浸没式,大型数据中心可以承担较多的成本 压力,还可配置专门的液冷运维操作间,更适宜使用浸没式。
不过这并不代表浸没式 “ 止步于此 ” , 伴随着芯片功率的提升,冷却效率还要进-步提升,这将推 动浸没式,准确地说是加快相变浸没式的广泛应用。
据了解,国内CPU芯片功率已经达到400W,而英伟达2024年3月最新推出的B200芯片相比 H100虽然算力能源效率提升了约25倍,但芯片功耗也将超过1000W。张鹏表示, 相变浸没式的 冷却效率要高于冷板式与单相浸没式,更适合高功率的芯片散热需求,或是终极液冷出路。
不仅如此,相较于冷板式,浸没式还有多项优势。如浸没式是-站式解决方案,可靠性高,对环 境的依赖性小,能够很好的防潮防尘。同时,在服务器更新的时候,强耦合的冷板式也会被替 换,浸没式则只需要替换冷媒,这使得在成本方面浸没式也会逐步显示出优势。
浸没式应用推广面临多项挑战
需要从技术、生产等方面优化
技术的大规模应用转化需要成熟的技术与产业链的支撑,液冷同样如此。
具体来看, 冷板式在技术上已经实现了多项突破,目前面临的挑战主要是产业链方面的,包括如 何推动产品的成熟,更好的降本增效,提升可靠性等,这意味着整个行业的发展,也是挑战。 浸 没式则处于技术创新突破的时期,其技术门槛极高,目前依旧有多项技术问题没有解决,且并非 短时间内就可以解决。
这点从曙光数创的发展便能体现出来, 自2011年提出液冷技术路线并启动相关技术研究,到 2017年浸没式液冷才对外应用,曙光数创历经6年才实现了浸没技术的商用化,这其中有多项关 键技术的突破。
以浸没冷媒为例,经过长期自主研发, 曙光浸没相变液冷计算机所使用的冷媒——电子氟化液已 经迭代到第三代,实现了诸多创新,具有高绝缘、低沸点、大潜热、稳定性高、低粘度、安全 性、以及环境友好(无臭氧破坏、温室效应低)等特性,可支持浸没相变液冷系统生命周期内可 靠稳定运行。
也正是依托技术上的长期研发突破, 曙光数创的相变浸没液冷才能够不断应用推广,成为目前国 内唯-实现全浸式液体相变冷却大规模商业化部署的企业,在重庆和多个东部-二线城市均有相 变浸没式数据中心的建设实践。
面对未来更高功率的散热要求,针对不同产业的差异化需求, 浸没式技术还要进行更深入的发 展,需要企业从多方面来进行优化。
首先,需要大量的研发投入。以曙光数创为例,其以技术为导向,持续研发投入,根据财报来 看, 2023年研发投入共计6825.33万元, 2024年第一季度研发费用总额超1440万元,相较于 2023年第一季度同比增长超过4%。通过大量的研发投入,曙光数创有效优化了液冷散热技术, 实现了高效可靠的全栈基础设施解决方案全场景覆盖。截至2023年末,曙光数创拥有已授权相 关专利135项,包含发明专利38项,软著45项,其中与液冷相关的专利104项,软著27项,在审 发明专利31项。
其次,需要为生产做好准备。如曙光数创在山东青岛建设了目前我国规模最大的液冷数据中心全 链条产业创新基地,且已正式投产。该基地囊括研发、生产和保障三大功能区,拥有七大研发创 新实验室和四条先进生产线,实现专业的全链条、 一站式系统解决方案的创新研发和生产,能够 有效降本增效,提升交付能力,提高保密性,推动生产发展。
最后,需要时刻跟随客户需求。不同的企业在应用液冷的过程中有差异化需求,如金融业对安全 性的高要求,要求液冷厂商能够依托自身技术与产品持续优化发展,以更契合客户的发展需要, 促进算力的有效供给。
综合来看,液冷是智算快速发展趋势下散热的标配与必需品,能够有效释放芯片的计算能力,并 且伴随芯片功率的持续提升,液冷未来的发展方向是浸没式,但浸没式目前在技术与产业发展上 依旧存在诸多挑战,需要围绕客户需求,加大研发投入,完善产业链做好生产准备,最终满足不 同客户对液冷的差异化需求,推动算力建设,加快智能化、数字化发展。
审核编辑 黄宇
-
芯片
+关注
关注
453文章
50366浏览量
421652 -
液冷
+关注
关注
4文章
93浏览量
4989
发布评论请先 登录
相关推荐
评论