0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心的浪浪山

脑极体 来源:脑极体 作者:脑极体 2023-01-22 13:20 次阅读

2023开年,浪浪山的一只小猪妖火出了圈,在《中国奇谭》这部国漫的第一个单元中,小猪妖踌躇满志,想要做出一番事业,结果费尽千辛万苦,自己的工作成果却被否定,然后,小猪妖说出了那句经典台词“我想离开浪浪山”。

小猪妖的遭遇,戳中了当代打工人的隐痛,也像极了数据中心里那些鲜为人知,又百抓挠心的困境。

01ae1eaeb4494485bac7873f8ef248bc~tplv-tt-shrink:640:0.image?traceid=202301181751292421C45D1791BEDC4578&x-expires=2147483647&x-signature=4Bl5muyFKqTJFg70pi1ga7U2yGA%3D

近年来,我们能够在很多论坛、峰会、发布会商听到一些高瞻远瞩、提纲挈领的话,比如“计算力就是生产力”、“数字经济的基础设施”、“上云用数赋智”等,这些宏观层面的趋势、路线支撑着云数据中心、智算中心等计算集群的快速发展,我们也在此前的文章中分析过很多。

不过,实际建设过程中,会面临这样那样的具体挑战,可能是坐在办公室/研究所,对着PPT指点江山的人很难想象的。

比如西部某高校中计算中心的一个女工作人员曾告诉我,服务器散热主要靠风冷,维持降温会加大送风风力,她们女员工进机房都是没法穿裙子的;机房内的噪音很大,常年负责运维的同事,听力也受到了损害。

这些细节而真实的难题,构成了数据中心必须翻越的浪浪山,否则就会像小猪妖一样疲惫且做无用功,而这些问题,只能从扎根在脚下的土地中来,从与一线人员交流中来。今天我们就结合一些实地见闻来聊一聊,数据中心正在等待翻越哪些山峦。

第一重山:电

谈到数据中心的中美差异,你会想到什么?芯片、架构、软件、产业链?有一个容易被忽略但很重要的因素是:供电

益企研究院自2018年来实地考察了多个国内云数据中心,发现2 路2U 是国内服务器市场上的主流规格IDC的服务器市场追踪报告也证实,2018—2021 年,机柜式服务器中2U 规格占据了70%左右。然而,美国市场上,1U反而更受欢迎。

1U和2U究竟是什么?到底是什么原因导致了这种差别?又意味着什么呢?

0bea8333881545b4addb86ec18cd8f08~tplv-tt-shrink:640:0.image?traceid=202301181751292421C45D1791BEDC4578&x-expires=2147483647&x-signature=gZP2cAyT1y3WtKMtV8MrohVtN00%3D

(中国电子信创云基地(顺义)机房的2U服务器)

我们知道,随着IT设备技术的变化,现代数据中心采用的服务器高度一般为1U或2U,U指的是机架式服务器的厚度,1U是4.45厘米,而早期数据中心的机架式服务器高度一般在3-5U。

U的数字越少,服务器高度越低,单机计算密度越高,1U服务器的计算密度可以达到2U服务器的两倍。然而,东数西算工程中对数据中心集群的要求,京津冀、长三角、粤港澳大湾区、成渝这几个枢纽节点都强调了“高密度”。因为只有密度更高,才能在有限的土地面积上供给更多的算力,提高土地资源效益。

这样看,1U应该是更好的选择,但实地走访得到的结果,却是2U规格在中国云数据中心的占比较多,这是为什么呢?这里有一个决定性因素——供电能力。

因为1U比2U更耗电,支撑约18台2U服务器的单机柜供电量需要达到6kW,如果换成部署36台1U服务器,那供电量就要达到12kW。如果单机柜的供电能力达不到,就无法充分发挥1U的密度优势。

5665e3df97f84e76a7edd9ec7d1b672a~tplv-tt-shrink:640:0.image?traceid=202301181751292421C45D1791BEDC4578&x-expires=2147483647&x-signature=hbDNOr8Glze1gXCtJA9A4c82ZdQ%3D

(和林格尔东方超算云数据中心内景)

而目前,我国数据中心的机柜功率还是普遍偏低的,主流功率以4-6KW为主,“东数西算”工程的宣传中,甚至还可以看到“2.5 千瓦标准机架”的配置,6kW以上的机柜占比只有32%。

数据中心的供电系统,既有旧疾,也有新患。旧疾在于,传统数据中心的各个机电系统分别运行,采集精度不足,调控范围也有限,供电能力和IT需求无法精细化对等,一旦单机柜功率密度加大,电源连续运行的可靠性就可能受到影响,发生停机中断的风险也会增大。对于云服务商来说,云数据中心断电会直接导致客户业务终端,带来经济损失,这是不可承受之重。

新患在于,国家提出“双碳”战略后,建设绿色节能数据中心已经成为共识,而单机功率密度的增加,会直接提高制冷要求,从而增加空调设备和空冷用电。以2021 年数字中国万里行考察过的云数据中心为例,腾讯云怀来瑞北数据中心使用 52U 机柜,UCloud(优刻得)乌兰察布云基地使用 47U 和54U的机柜,如果都改用1U服务器,不仅不能真正提高密度,反而会增大服务器散热设计的挑战。

已知数据中心必须提高计算密度,那就要提高单柜密度,单机柜功率需要更高可靠、高可用的供电能力来保障,因此可以得出,供电能力接下来会是中国数据中心必须翻越的一重山。

第二重山:冷

前面提到,机柜功率密度的提升,会让制冷用电上升。可能有机智的小伙伴会问,采用更高效节能的制冷方式,不就可以解决这个问题,顺利向高密度进化了?

确实如此,数据中心行业为了更加节能的制冷系统,可谓是操碎了心。一方面是加速“西算”,充分发挥乌兰察布等西部地区的气候优势,建设新数据中心,利用室外自然冷源。“数字中国万里行”实地考察了7个数据中心集群,发现张家口数据中心集群、和林格尔数据中心集群的数据中心,一年有 10个月以上的时间可以使用自然冷源,年均 PUE 可达 1.2。

另外就是发挥液体冷却在降低能耗上的优越性,逐步用液冷服务器替代风冷。比如阿里巴巴2018年在河北省张家口市张北县部署了一个浸没式液冷(Immersion Cooling)机房,一个卧置的54U机柜,部署32台1U双路服务器和4台4U的JBOD。开篇我们提到,风冷机房给女员工着装上带来的小困扰,液冷技术就能很好地解决这个问题。

这是不是意味着,液冷技术很快会在数据中心行业普及呢?结束2021年数字中国万里行后,益企研究院推出的《2021中国云数据中心考察报告》,给出了“谨慎观望”的答案。

我们认为,原因有三:

1.成熟期的生态问题。

液体冷却虽然制冷效率远高于风冷,但长期以来,风冷机房在数据中心建设中占据了主流,几十年一贯制的风冷服务器已经形成了成熟的生态链,建设和运营成本都有优势,因此一些气候优越的地区,风冷方案就可以满足降PUE的需求,比如华为乌兰察布云数据中心就以 8 千瓦的风冷机柜为主。此外,在一些东部中部地区有引入液冷的需求和意愿,但也要考虑成本,如果能够通过优化UPS架构,采用智能化能效管理方案等,取得显著的节能效果,那么能风冷就风冷。

2.过渡期的技术问题。

当然,对于HPC、AI等计算,采用液冷的优势很大,因此也有一些公司希望尝试液冷技术,但又不想改造风冷机房,于是从风冷升级到液冷的过渡期,出现了“风液混布”的市场需求。

我们知道,风冷服务器可以与制冷设备松耦合,环境适应性、灵活度很高,而浸没式液冷需要将服务器的板卡、CPU、内存等发热元器件完全浸没在冷却液中,喷淋式液冷则需要对机箱或机柜进行改造,二者带来的成本都比较高。过渡期中,冷板式液冷与风冷混合使用,是比较适合的方案。但是,冷板式液冷要将冷板固定在服务器的主要发热器件上,依靠流经冷板的液体将热量带走,全密封和防泄漏要求高,设计和制造难度很大。

d7ffac04008a48a19859b2eff53aac60~tplv-tt-shrink:640:0.image?traceid=202301181751292421C45D1791BEDC4578&x-expires=2147483647&x-signature=uQoA8NE6d7RnwV1h8gvt1ppcQms%3D

(华为云东莞松山湖数据中心部署的Atlas 900集群,采用风液混合技术散热)

3.产业链的协作问题。

液冷数据中心需要产业链上下游的协同创新,包括制造、设计、材料、施工、运维等各个环节。风冷模式也正因为松耦合,导致制冷行业和数据中心行业是比较割裂的,推动数据中心向液冷变革,必须要构建一个新的生态,加强各角色的联系,降低液冷服务器的前期制造成本和后续维护成本。这需要一个多方磨合、配合的过程,不是一朝一夕能够实现的。

从这些角度来看,液冷数据中心虽然是大势所趋,但还有较长的路要走,整个行业都在持续关注变化。

第三重山:芯

如果说供电效率、风冷液冷,是云数据中心机房基础设施的重要变化,那么芯片可能就是IT基础设施的重点关注对象。

2021年,由安谋科技独家冠名赞助的数字中国万里行,在考察贵州、内蒙古乌兰察布、和林格尔期间发现了一个新的现象——中国“芯”力量正在崛起,国产技术的成熟度和应用程度正在提升,追赶主流。阿里云的倚天710、AWS的Graviton、Ampere的Altra等,都获得了长足的发展与应用。

造成这一局面的原因很多,比如云全栈走向自主化,为中国“芯”提供了市场支撑;政务、金融、交通、电力、制造等行业的数字化加快,为中国“芯”提供了应用落地场景;x86与 Arm 并存,为中国“芯”基于新架构进行定制和优化提供了研发基础。

但必须指出的是,月亮都有暗面。中国“芯”崛起的背后,也要看到中国半导体领域还艰难中探索。

首先,是制程工艺的枷锁。我们知道,摩尔定律的延续是基于制程工艺的推进,然而半导体制程工艺的提升已经触达天花板很久了,跟不上芯片规格提升的速度。所以,云数据中心开始采用“堆CPU”的做法来提升机柜密度,但是靠堆料带来的性能提升是有边界的,不能止步于此。

70a3fc37b69e4d69ac2698afd57c06f4~tplv-tt-shrink:640:0.image?traceid=202301181751292421C45D1791BEDC4578&x-expires=2147483647&x-signature=ugTEDqzpyyiRgpWjlSTbjqsFmUc%3D

于是后摩尔时代,小芯片(Chiplet)开始被很多***厂商选中。这种新的芯片设计模式,可以把多个硅片封装在一起,组成一个芯片网络,x86 和 Arm 生态系统都在采用这项技术。但需要注意的是,目前的IP重用方法中,对IP的测试和验证已经有比较成熟的方法,但多个Chiplet封装后如何测试、良率怎么保证,还是中国“芯”必须解决的问题。

更主要的是,小芯片的封装依靠先进的封装技术,芯片I/O接口可以和封装协同设计并优化,对于芯片性能的提升非常重要。这就要求先进封装设计与芯片设计有较强的交互性,同时也对设计工具提出了一定的要求,我们知道,EDA工具一直是我国半导体领域的“软肋”之一,这一点不解决,在Chiplet越来越重要的当下,中国“芯”很难高枕无忧。

目前看来,数据中心集群作为数字基础设施的重要组成部分,正在发生一系列变化,究竟干得怎么样,有哪些待解问题,是一个必须回答又不容易回答的问题。

不识庐山真面目,只缘身在此山中。很多事情,只有在贴近实地一线,再抽离出来纵览全局,才能看到困住数据中心前进脚步的一重重“浪浪山”。

2023数据中心需要跨越的山峦还很多,尽管道阻且长,但只要一直行在路上,总有海阔天空任鸟飞的那天。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    456

    文章

    50947

    浏览量

    424712
  • 数据
    +关注

    关注

    8

    文章

    7081

    浏览量

    89178
  • 服务器
    +关注

    关注

    12

    文章

    9233

    浏览量

    85637
  • 数据中心
    +关注

    关注

    16

    文章

    4810

    浏览量

    72211
  • 算力
    +关注

    关注

    1

    文章

    994

    浏览量

    14863
收藏 人收藏

    评论

    相关推荐

    科技荣登福布斯·出海全球化旗舰品牌Top30

    恭喜锦科技荣登福布斯·出海全球化旗舰品牌Top30。 大航海时代,去有的地方。锦科技荣获福布斯中国·出海全球化旗舰品牌TOP30,在全球一体化大背景下,主动拥抱全球化,无畏风浪,勇立潮头,从
    的头像 发表于 11-26 18:35 187次阅读

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36

    混合冷却在数据中心中仍将是必不可少的#混合冷却

    数据中心
    深圳崧皓电子
    发布于 :2024年08月06日 06:58:06

    科技携重磅产品亮相SNEC 2024

    6月13日,2024年第十七届国际太阳能光伏与智慧能源(上海)大会暨博览会在上海国家会展中心拉开帷幕,锦携重磅产品和前沿技术成果亮相5号馆,精心布局的展台让观众身临其境体验高端全场景光储逆变器的魅力,带来全新的“视觉”与“感官”盛宴,大放异彩。
    的头像 发表于 06-14 15:08 581次阅读

    深圳拓 | 气体放电管(GDT)的应用案例

    工作条件下,由于高绝缘阻抗和低电容特性,放电管对受保护的系统实际上不发生任何影响。 应用示例:通信基础设施浪涌保护 应用示例:电源浪涌保护 应用示例:数据通讯电路保护 应用示例:以太网接口过电压保护
    发表于 05-15 16:30

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    科技再次斩获EuPD Research颁发的“顶级光伏逆变器品牌”荣誉

    近日,锦科技再次斩获欧洲权威调研机构EuPD Research颁发的“顶级光伏逆变器品牌”荣誉。
    的头像 发表于 03-25 13:49 468次阅读
    锦<b class='flag-5'>浪</b>科技再次斩获EuPD Research颁发的“顶级光伏逆变器品牌”荣誉

    #mpo光纤跳线 #数据中心光纤跳线

    光纤数据中心
    jf_51241005
    发布于 :2024年03月22日 10:18:31

    #gyta53光缆 #gyty53光缆 #数据中心光缆

    数据中心光缆
    jf_51241005
    发布于 :2024年03月18日 14:03:02

    #光纤弯曲 #光纤衰减 #数据中心光纤

    光纤数据中心
    jf_51241005
    发布于 :2024年03月08日 09:59:50

    #光缆防火等级 #数据中心光缆 #综合布线光缆

    数据中心光缆
    jf_51241005
    发布于 :2024年03月04日 11:29:25

    #MPO预端接 #数据中心机房 #机房布线

    数据中心MPO
    jf_51241005
    发布于 :2024年03月01日 11:12:47

    #永久链路 #信道测试 #数据中心

    数据中心
    jf_51241005
    发布于 :2024年02月23日 10:17:58

    #紧套光缆 #松套光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月26日 09:44:11

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26