0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI化革命:大厂如何重新定义数据中心的未来

SDNLAB 来源:SDNLAB 2023-10-10 16:29 次阅读

数据中心在现代社会扮演着至关重要的角色,它们是数字化时代的神经中枢,支持着云计算、大数据、人工智能等技术的快速发展。在传统的数据中心中,冷空气通过充斥着计算、网络和存储系统的机架被加热后,通过冷却设施捕获并排出。

但这仅适用于传统的数据中心,随着计算需求的不断增加,传统数据中心面临着巨大的挑战,包括能源效率、资源优化以及冷却问题。铺天盖地的 AI 大模型时代,当着手部署用于训练AI 模型的系统的那一刻,GPU节点可以轻松消耗整个机架的功率,这迫使数据中心运营商做出一些重大的设计改变。本文将探讨人工智能如何改变数据中心建设和冷却,以及其对数据中心行业的影响。

数据中心建设的革新

人工智能应用通常需要大规模的高性能计算资源,包括GPU和TPU等加速器。因此,数据中心需要具备足够的计算能力来支持这些应用的训练和推理。这意味着数据中心需要更多的服务器和更强大的网络基础设施,以确保高性能计算任务能够顺畅执行。

特斯拉似乎已经意识到了这一点。这家美国电动汽车制造商正在寻找人员来帮助其建立“同类首个数据中心”。

近期,该公司表示正在寻找一名数据中心高级工程项目经理,他将“领导特斯拉首个此类数据中心的端到端设计和工程,并将成为特斯拉数据中心的关键成员之一”。

目前尚不清楚所谓的“同类首个数据中心”是什么意思,推测它可能与去年在 Hot Chips 上展示的定制 Dojo AI 加速器有关。

特斯拉计划从现在到 2024 年底向该项目投入超过 10 亿美元,以加速其自动驾驶软件的开发。整个系统的运算能力可能超过 100 exaFLOPS,预计相当于 BF16 的性能。这意味着特斯拉必须找到能够容纳该设备的地方。

然而,构建和管理一个能够提供足够电力和冷却以保持 AI 加速器正常运转的设施可能是一场噩梦。

Dojo 是一台可组合的超级计算机,完全由特斯拉内部开发。从计算、网络、IO,到指令集架构、电力传输、封装和冷却,一切都是定制的,目的是加速特斯拉的机器学习算法

该系统的基本构建模块是特斯拉的 D1 小芯片,其中 25 个使用台积电的晶圆系统技术封装到Dojo 训练模块中。总而言之,这个半立方英尺的系统具有 11GB SRAM、9TB/s 的结构连接,并且可以管理 9 petaFLOPS 的 BF16 性能。

将所有性能塞进如此紧凑的外形尺寸已经带来一些挑战了,例如如何为单个 15kW 加速器提供动力和冷却,更不用说构成 1 exaFLOPS Dojo V1 系统的 6个加速器了。这还只是加速器,你还需要为所有用于通过加速器提供和协调数据流的支持系统提供动力和冷却。

然后是高速网格的问题,这可能会限制这些模块的部署方式。在这些速度下,将它们包装得越紧密越好,但热负荷也越大。因此,如果特斯拉完全放弃使用传统机架的想法而转而采用全新的东西,也就不足为奇了。

无论该系统最终采用何种形式,有一点是肯定的:无论特斯拉决定在哪里部署该系统,都将需要超级计算水平的冷却能力。

数据中心冷却的重要性

数据中心冷却是现代 IT 基础设施中的一个关键问题,推动了创新系统和解决方案的发展,涉及空调、水冷技术和其他基于液体的机制,以确保最佳性能和能源效率。由于冷却系统约占数据中心总能耗的 40%,因此成本也是一个关键考虑因素。数据中心冷却在维持系统性能方面发挥着至关重要的作用。

什么是数据中心冷却?

数据中心冷却是指用于调节数据中心设施内的温度、湿度和气流的设备、系统、方法和技术。由于数据中心通常容纳数千台服务器、IT 设备和其他产生大量热量的电子设备,因此适当的冷却对于保持最佳性能和防止过热至关重要。

数据中心冷却的目的是什么?

数据中心的冷却系统用于将服务器、存储设备、网络硬件和各种其他设备运行时产生的热量散出去。这种热量以温度的形式测量,是在电能转化为热能时产生的,这一过程是由于电子元件效率低下而发生的。

除了管理热量外,数据中心冷却系统还可以维持设施内适当的湿度水平。这样可以防止静电和冷凝的积聚,这两个因素都会对电子设备造成重大损坏。

数据中心冷却的主要目的是维持适合IT设备运行的环境条件。行业组织ASHRAE建议数据中心的温度保持在 18°C 至 27°C范围内。ASHRAE 还建议数据中心的湿度水平应在 40% 至 60% 的范围内,具体取决于具体的设备和配置。

为什么数据中心冷却很重要?

数据中心冷却之所以重要,原因有很多,包括性能、防止停机、设备寿命和能源效率等:

# 性能

数据中心的过热会产生“热点”,导致处理器和内存等服务器组件出现故障。过热时,计算机系统可能会变慢、冻结,甚至遭受永久性的硬件损坏。适当的冷却可以使系统能够保持最佳性能和服务器的板载逻辑。

# 防止停机

过热可能会导致系统故障并导致停机。在数据中心,停机不仅会造成破坏,而且代价高昂。实施适当的冷却技术有助于防止此类问题。

# 设备寿命

长时间暴露在高温下会缩短硬件的使用寿命。相反,保持凉爽的环境可以延长设备的使用寿命。还需要注意的是,湿度过高会对设备造成损害。当潮湿的灰尘颗粒粘附在电气元件上时,会减少热传递,甚至会导致腐蚀。

# 能源效率

高效的冷却系统消耗更少的能源和水,使其更加环保且更具成本效益。传统的“机械”数据中心冷却方法(例如空调)可能非常耗能并消耗大量的水。因此,采用使用较少能源或水的现代冷却解决方案对于降低运营电力成本特别有利。

人工智能已经在改变数据中心的面貌

人工智能基础设施提出的冷却和电力要求已经促使一些大型超大规模企业和数据中心运营商重新评估他们如何构建数据中心。

Facebook 母公司 Meta 也是推动这些变革的公司之一。该公司在人工智能研发方面投入巨资,去年使用了由 16,000 个 英伟达A100 GPU 组成的人工智能超级计算机。

在去年的 OCP 峰会上,Meta展示了其 Grand Teton AI 训练平台以及 Open Rack v3 (ORV3) 规范,该规范旨在适应系统的更高功率和热负载。例如,根据 Meta 的规范,单个母线可以支持 30kW 的机架。

Meta的基础设施副总裁Alexis Bjorlin在博客中写道:“ORV3生态系统可以适应几种不同形式的液冷策略,包括空气辅助液体冷却和设施水冷却。”“我们看到,功率趋势正在增加,对液冷技术的需求正在迫使我们对平台、机架、电源和数据中心设计的所有元素进行不同的思考。”

在博客发表后不久,Meta取消了两个荷兰数据中心,并宣布将重新设计位于阿拉巴马州亨茨维尔的第三个数据中心,该公司将其称为“人工智能战略投资”。

数据中心冷却的演进

传统的数据中心冷却方法通常依赖于大型制冷设备,这些设备耗能巨大,导致高昂的运营成本。其次,这些设备需要占用大量物理空间,从而限制了数据中心内部服务器和存储设备的部署密度,增加了建设和运营成本。此外,高密度计算设备的普及导致了过热问题,传统冷却系统则难以有效地处理这一挑战。同时,它们还会对环境造成负面影响,如碳排放和水资源消耗,不符合可持续性原则。

6f922dbc-6744-11ee-939d-92fbcf53809c.png

空气辅助液体冷却成为焦点

Meta等大公司正在投资的关键技术之一是空气辅助液体冷却。

与多年来在 HPE Cray、Atos 和联想超级计算机中看到的全液冷基础设施不同。该技术大量使用后门热交换器 (RDHx),以减少支持热运行芯片所需的全设施基础设施投资。

RDHx 真的很简单,相当于一个机架大小的散热器和一些大风扇。该技术因其灵活性而受到很多青睐,这使得它可以部署在支持机架级液体冷却所需管道的设施中。

在 Meta 的案例中,该公司将 RDHx 视为一种更有效地消除系统热量的方法。据了解,该实施涉及直接液冷 (DLC) 服务器,该服务器通过管道连接到机架内储液器和泵,推动加热的冷却剂通过 RDHx,系统中的热量在 RDHx 中排出到热通道。

在这种配置中,RDHx 的功能很像游戏 PC 中的定制水冷回路,但它不是冷却一个系统,而是冷却整个机架。

RDHx 也可用于空气冷却。在这种配置下,冷设施水通过 RDHx 泵送。当热空气从空气冷却系统的后部排出时,热量被散热器吸收。Meta 去年 10 月发表了一篇关于该技术可行性的完整论文。

这种方法的最大好处之一,特别是对于托管服务器而言,是它不要求客户在准备好之前就接受 DLC,并且对于他们支持液体冷却行业中不会相互冲突。

随着技术的不断发展,我们可以期待新型冷却技术的涌现,如量子冷却等。这些技术将进一步降低能源消耗,提高可持续性。

在人工智能的时代下,数据中心建设和冷却技术的演进正共同塑造着数字化世界的未来。人工智能时代不仅催生了数据中心建设方面的创新和改变,也对数据中心冷却技术提出了挑战,这两者相辅相成,不断演进,以满足巨大的计算需求和可持续性标准。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超级计算机
    +关注

    关注

    2

    文章

    460

    浏览量

    41922
  • 数据中心
    +关注

    关注

    16

    文章

    4677

    浏览量

    71950
  • 人工智能
    +关注

    关注

    1791

    文章

    46845

    浏览量

    237526

原文标题:AI化革命:大厂如何重新定义数据中心的未来

文章出处:【微信号:SDNLAB,微信公众号:SDNLAB】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    医疗AR眼镜,重新定义远程会诊体验

    【AR眼镜:重新定义远程会诊体验】 在快速发展的医疗领域,安宝特医疗AR眼镜以其尖端技术和创新功能,引领远程会诊的未来,致力于为为医生和患者带来更高效、精准和无缝的医疗体验。 探索安宝特医疗AR眼镜
    的头像 发表于 09-10 10:57 235次阅读

    安森美引领数据中心能效革命

    在当今数字转型的浪潮中,数据中心作为支撑人工智能、云计算等关键技术的基础设施,其能耗问题日益凸显。特别是随着AI计算的蓬勃发展,数据中心对电力的需求急剧增加,传统搜索引擎请求相比,
    的头像 发表于 08-12 11:13 444次阅读

    AI时代,我们需要怎样的数据中心AI重新定义数据中心

    超过60%的中国企业计划在未来12至24个月内部署生成式人工智能。AI、模型的构建,将颠覆数据中心基础设施的建设、运维和运营。一个全新的数据中心智能化时代已经拉开序幕。
    发表于 07-16 11:33 658次阅读
    <b class='flag-5'>AI</b>时代,我们需要怎样的<b class='flag-5'>数据中心</b>?<b class='flag-5'>AI</b><b class='flag-5'>重新定义</b><b class='flag-5'>数据中心</b>

    黄仁勋:人工智能和加速计算的交汇将重新定义未来

    COMPUTEX 大会开幕前发表主题演讲,他表示:“生成式 AI 正在重塑行业,并为创新和增长带来新机遇。” “今天,我们正处于计算领域重大转变的最前沿,”黄仁勋表示,“人工智能和加速计算的交汇将重新定义未来。” 6500 多
    的头像 发表于 06-03 17:42 1487次阅读

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛中,华为面向中东中亚地区发布星河AI
    的头像 发表于 05-15 09:15 597次阅读
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>网络,赋<b class='flag-5'>AI</b>时代新动能

    港灯打造了面向未来的下一代电力数据中心网络

    通过华为数据中心网络CloudFabric解决方案实现了秒级切换,保障了“业务零中断”和“零单点故障”,港灯打造了面向未来的下一代电力数据中心网络, 为港灯未来全面演进软件
    的头像 发表于 04-16 09:29 550次阅读

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    模块机房:数据中心未来

    随着数字转型加速,数据中心已成为企业运营的核心。传统的数据中心面临空间利用不足、能源效率低下、扩展性差和维护成本高等问题。模块机房应运而生,它不仅克服了传统设计的局限,还为
    的头像 发表于 03-12 17:26 850次阅读

    微模块数据中心的优势

    微模块数据中心是以模块、标准的架构和高效高可靠的UPS、精密空调等灵活组合于一体打造的模块数据中心基础设施,可实现灵活快速部署、高效节
    的头像 发表于 01-19 13:53 625次阅读

    让数字世界坚定运行 | 华为发布2024数据中心能源十大趋势

    深圳2024年1月17日 /美通社/ -- 近日,华为举办2024数据中心能源十大趋势发布会并发布《白皮书》。发布会上,华为数据中心能源领域总裁尧权定义未来
    的头像 发表于 01-17 20:45 532次阅读
    让数字世界坚定运行 | 华为发布2024<b class='flag-5'>数据中心</b>能源十大趋势

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    墨芯人工智能CEO王维:需要重新定义和设计AI计算机

    AI时代,我们需要重新定义和设计AI计算机。仅依靠硅基的摩尔定律,2年翻一倍的线性增长的算力供给远不能满足指数级增长的需求问题。
    的头像 发表于 01-12 11:12 1027次阅读

    数据处理器:DPU编程入门》读书笔记

    。以DPU为技术代表的新算力架构,正在重新定义数据中心和云原生技术的基础架构。 DPU的出现,是随着数据中心的高速发展,通信能力和计算能力成为数据中心基础设施的相辅相成的两个重要发展方
    发表于 12-21 10:47

    Microchip CEO博文《AI将如何重新定义数据中心?》

    AI已经存在了一段时间,其影响也相当巨大。生成式AI刚开始崭露头角,对于其如何颠覆世界的种种预言已经迅速成为热门话题,影响之深广,令人深思。  这项技术已经对数据中心产生了重大影响。基于必须在云端
    的头像 发表于 12-11 14:50 1309次阅读
    Microchip CEO博文《<b class='flag-5'>AI</b>将如何<b class='flag-5'>重新定义</b><b class='flag-5'>数据中心</b>?》

    AI重新定义PC体验

    ,用户的终端设备将成为真正的智能助手,以更直观、更无缝的方式融入用户的生活。在PC行业中未来蓬勃发展的企业,将是那些期待AI能够实现集成化、个性体验的世界级企业。 当前,关于生成式AI
    的头像 发表于 12-06 10:15 505次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>重新定义</b>PC体验