0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

水底下的云

脑极体 来源:脑极体 作者:脑极体 2024-08-14 17:14 次阅读

wKgaoma8dXaAICx7AAourS9sK1w290.jpg

曾几何时,UDC水下数据中心,就像《流浪地球2》泡在水里的根服务器,是一个只存在于科幻电影、猎奇新闻中,或者是海外顶尖科研机构用来“炫技”的“黑科技”。

如今,UDC已经来到了我们身边,并且正在加速。

今年7月我去2024世界人工智能大会,在一家中国计算厂商的展台“C位”,看到了一台泡在水中、正在运行的电脑

原来,该企业研发的特殊液体,能够与电路板兼容,而且不会腐化电路。依托相关材料打造的液冷服务器,可以抵御电子元器件的天敌——“水”,让水下数据中心成为可能。

据现场工作人员透露,目前该企业已经与苏州达成合作,正在湖中部署水下数据中心。一是可以作为当地“新质生产力”的标杆项目,展现在智能计算方面的区域实力;二是有特别好的节能减排降耗效果,可以为当地一些AI企业和应用提供绿色算力。

那怎么才能用到水底的算力呢?答案是,云。

从云上获取AI算力,凭借天然的成本优势、灵活租用的弹性优势,成为AI 初创企业的首选。建设更节能、更绿色、成本更低的“云”, UDC水下数据中心也走进了云计算厂商的视野。

2014年微软首次提出了水下数据中心概念,希望为沿海人口提供高速云服务。2018 年微软正式将 855 台服务器沉到海里,与Azure 云进行对比。我国目前也有海底数据中心,核心业务就是算力服务,以及跟腾讯、阿里等云厂家的大批量直接合作,为它们提供更具成本优势的云端算力。

本文就来聊一聊,水底下的云,到底怎么把算力价格“打下来”?

wKgaoma8dXeAY4QOAAI7338Qyh0182.jpg

“AI的尽头是电力”。大模型的参数量达到万亿级别,驱动着智算中心的组网规模向五万卡,甚至是十万卡级演进。而一个十万卡集群,可能耗尽一个城市的电量。为了供养AI大模型,全城人都不能开空调、看电视,这未免也太赛博朋克了。

不仅我们不愿意出现这种情况,其实云厂商也不愿意。有调研显示,水电费支出占到了数据中心运营成本的50%以上,而智算中心GPU的密度进一步增加,电量负荷会倍数增长,直接导致云厂商的成本激增。

为了减少电费,云厂商们可谓是想尽了办法。

有人把数据中心放到了乌兰察布、青海,有人放到了湖边(阿里巴巴千岛湖数据中心),有人放进了山洞(腾讯、华为),有人直接搬去了北极圈(Facebook Node Pole 数据中心、芬兰哈米纳港Google数据中心),还有人放到了海上(Google海上漂浮数据中心)、海底(微软Project Natick数据中心)。

万变不离其宗,就是减少依靠空调等电力设备降温的风冷,多靠自然环境中的空气或水,进行自然冷却。

wKgZoma8dXeAMPgyAAM6T-uK_18062.jpg

而这些自然冷却方案中,水底下的云无疑是最有“减电”竞争力的。

显然,相比陆地数据中心,水下环境的复杂度更高,布线、维护更为麻烦,而且服务器本来就怕水,对水下数据中心的防水、防腐性能挑战更大,为什么还能成为一种选择?

水下数据中心的成本“第一刀”,就把自然冷却效果打到了“地板价”。

作为冷却效果最极致的解决方案,水下数据中心直接利用了水体的低温特性,比其他物质(如空气冷却、风力冷却)吸收更多热量,大幅减少了额外的冷却需求。

同时,由于水下环境本身就提供了有效的冷却,因此可以减少对空调系统的依赖和能耗。

可以说,利用水流带走热量,水下数据中心节能降耗的成本优势最为显著。

wKgaoma8dXiAazghAAHxvaD8hhg403.jpg

在陆地上建数据中心,自然要占用土地空间,除了土地成本之外,一些天然气温较低的寒冷内陆城市和地区,基础设施条件一般也没有沿海地区发达,比如北极圈,导致TCO总体拥有成本上升。

尤其是随着超万卡集群的到来,对陆地上的数据中心/智算中心配套设施,比如供电、承重、机房洁净度和走线架设计等提出了极高要求。

《面向超万卡集群的新型智算技术白皮书(2024年)》显示,由于超万卡集群的算力密度更高、功耗密度更高,线缆的布放量也随之增大,一个 1.8 万卡的智算集群,需要布放 10 万量级的线缆,这将对走线架的宽度和承重带来新的挑战。

可以说,陆地数据中心/智算中心的总体成本正在走高。

与之相比,水底数据中心的建设成本正在下降,二者之间的“剪刀差”越来越小。

一方面,由于湖泊、海洋的空间较大,建设方的选址范围更广,相比内陆地区,水下数据中心的土地成本更可控。

此外,水下数据中心往往采用高度集成、紧耦合、密封式数据舱,一些在陆地数据中心中是必需的设备,如冷却塔和压缩机等,在水下都不需要。设计得当的海底数据仓,故障率和运维成本更低。

2020年9月,微软将沉入海底两年的数据中心捞上来,评估发现,水下数据中心的服务器故障率,比传统数据中心更低,可靠性比陆地上的服务器高8倍。

这可能是因为,水下数据舱可以与多变的环境隔离,很少受到事故扰动。总之,广袤辽阔的水域,让无需与人类争夺土地资源的水下算力,价格“更香”了。

wKgaoma8dXmAXOBSAAJN5Kq-l1M795.jpg

把服务器泡在水里,省水。这究竟是怎么一回事?

这就要提到一个指标:WUE(Water Usage Effectiveness),水资源利用效率。

很多人听说过PUE,却很少听过WUE,而想要推动环境可持续发展,实现碳中和,WUE也不得不降。

降低WUE,核心就是减少分子——输入数据中心的水量,主要由冷冻补水、冷却补水、加湿补水等生产用水组成。冷却过程中消耗的水资源越少,WUE就越高

把数据中心泡在水里,就能减少生产用水吗?可以,而且甚至是0。

一方面,水下数据中心直接使用周围水体的低温来冷却服务器,无需蒸发散热,省去了传统数据中心中的冷却塔和冷水系统,用于冷却的水资源消耗等于0。

此外,水下数据中心冷却过程中蒸发的水分直接回到水体中,对于公共水源来说也几乎没有损失。一些干旱缺水的地区,如果利用湖泊、河流、地下水来降温,蒸发的水资源却未必能快速回到当地的水系之中,会给当地水环境带来负面影响。

2023年,美国亚利桑那州就因为担心水资源消耗问题,限制当地数据中心建设。国内,内蒙古乌兰察布市集宁区也出台了《关于禁止集宁区大数据企业使用地下水冷却降温的通知》,辖区内大数据企业一律禁止用地下水冷却降温。

而水下数据中心即使产生一些热蒸腾,也会很快被广阔的湖泊海洋而代谢掉,不会影响到当地的水循环。

wKgaoma8dXqAIxsVAAIPFmtnvTs355.jpg

水下数据中心虽然成本优势大,但AI云服务如果一味降本,可能会出现“降本增笑”的事故。

举个例子,西部数据中心的存算成本比东部更低,但一些东部企业考虑到传输时延、丢包率、业务可靠性等,宁肯多承担50%的成本,也要把数据放在东部,尤其是自动驾驶等对数据实时性要求较高的业务。这也是很多西部数据中心,上架率不高的重要原因。

水下数据中心的商业化困境在于,虽然价格低,但与AI需求没有充分适配,而AI又被云厂商看作是当下最关键的新增收入点。

水下的资源扩展性受限。云服务需要根据用户需求快速扩展资源,增加算力规模、存储空间,而水下数据舱的出厂、下水都有一定的时间周期(微软官网显示,Natick从工厂到运行要90天),而目前陆地上的智算中心,采用模块化建设只需一个月左右就能落成,能更快满足AI算力需求。

目前,微软也宣布暂停了Natick项目,据说要在后期加强安装、维修机器人等方面的研究,看来远离人类活动的水下环境,仍不适合大规模部署数据中心。

另外,对水下算力的纳管和管理,也给云厂商提出了挑战。目前水下算力的占比还比较小,云厂商要整合和管理这些异构资源,确保不同来源的算力可以无缝集成,实现最佳性能,并让用户便捷简单地使用这些资源,需要投入大量的资源进行技术和系统、平台的研发。

一些积累不够深厚的中小型云厂商,可能出现“酱油(管理平台)比鸡(算力)贵”的情况,并不能靠成本优势来提升综合竞争力。

徐志摩曾在《偶然》诗中写道:“我是天空中的一片云,偶尔投影在你的波心。”目前来看,AI云服务和水下数据中心,恐怕还无法长相厮守、成为彼此的唯一。

2024年5月,Natick项目第二期已经开始,反映出微软对云数据中心解决方案的持续追求,也让“水下数据中心”成为中国不能落后太远的一条赛道,更适合作为科技自立、科技强国的一张名片,与国资云、央国企云、科研云一同试点探索。

而商业化属性更强的云服务商,仍需要聚焦在陆地上。幸好中国地形地貌丰富、基础设施完善,有广阔天地来探索“极致性价比”。

从这个角度说,算力,从来不是一家计算企业或一个行业的事,而是一个举世参与的系统工程。算力即国力的时代,才刚刚开始。

wKgaoma8dX6AVuL8AAGwLMLEqwI767.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7732

    浏览量

    137184
  • 服务器
    +关注

    关注

    12

    文章

    9016

    浏览量

    85171
  • 数据中心
    +关注

    关注

    16

    文章

    4675

    浏览量

    71948
收藏 人收藏

    评论

    相关推荐

    为中小企业量身定制的会议!华为 Flexus 版会议亮相 828

    当下数字经济迅猛发展,技术从粗放向精细转型,技术体系也日臻成熟。由于计算有天然的降本增效、弹性伸缩的特性,随着企业信息化的需求日益突出,将在诸多中小企业高质量发展的路上扮演更重要的角色。 在会议
    的头像 发表于 11-13 19:42 88次阅读
    为中小企业量身定制的<b class='flag-5'>云</b>会议!华为<b class='flag-5'>云</b> Flexus 版<b class='flag-5'>云</b>会议亮相 828

    什么是混合?混合的优势和劣势

    混合将公有的灵活性、成本效益与私有的安全性、控制性相结合,提供了一种两全其美的解决方案。企业可以在效果最好的地方使用服务,同时将某些操作保留在自己的本地网络基础设施或私有云中,
    的头像 发表于 10-23 10:57 99次阅读

    AI平台与传统计算的区别

    AI平台与传统计算在定义、技术架构、应用场景和服务模式等方面存在显著差异。
    的头像 发表于 10-14 10:08 261次阅读

    如何理解计算?

    计算的工作原理是什么? 计算和传统IT技术的区别? 华纳如何帮助您实现计算? 什么是计算?
    发表于 08-16 17:02

    重塑服务,华为 Flexus X 实例破解服务传统难题

    在数字化转型的大潮中,计算不仅是企业加速变革的引擎,更是其增强竞争力的关键。企业通过“上”能够迅速响应市场变化,从而在激烈的商业竞争中占据有利地位。然而,随着企业对服务的依赖日益加深,传统
    的头像 发表于 08-12 09:54 546次阅读
    重塑<b class='flag-5'>云</b>服务,华为<b class='flag-5'>云</b> Flexus X 实例破解<b class='flag-5'>云</b>服务传统难题

    ISCADA平台使用指南

    一:网关方DSA准备设定 二:打开并登录ISCADA 平台(https://iscada.com.cn) 三:添加网关管理配置 四:添加 机型管理 模块 五: 机型管理
    发表于 07-24 08:03

    阿里设备的物模型数据里面始终没有值是为什么?

    如上图,不知道讲清楚没有。 IG502自定义TOPIC 上发到阿里没问题。采用阿里物模型的格式来上发就不行。请大佬指教!
    发表于 07-24 07:49

    网络与计算:有什么区别?

    计算和网络是相关但又不同的概念。计算关注的是应用程序如何运行,而网络则关注的是应用程序之间的连接如何管理和交付。 计算和
    的头像 发表于 06-25 11:43 467次阅读
    <b class='flag-5'>云</b>网络与<b class='flag-5'>云</b>计算:有什么区别?

    stm32 AWS连接怎么使用?

    stm32 AWS连接怎么使用,官方的扩展包看不明白
    发表于 04-01 07:21

    ?!下?!这难倒了孙悟空!

    “上”还是“下”,这的确是个问题!
    的头像 发表于 03-14 02:42 1172次阅读
    上<b class='flag-5'>云</b>?!下<b class='flag-5'>云</b>?!这难倒了孙悟空!

    6500VA水声功率放大器如何驱动换能器进行鱼群探测?

    在我们进行远海捕鱼作业,或者进行关于海洋鱼类种群调查时,都会用到一件“探测小帮手”那就是——鱼探仪,鱼探仪探鱼器一般都是利用声纳定位的,是基于声波的传输原理,它是能够用来探测水底下的轮廓,状态,构成
    的头像 发表于 01-12 10:11 322次阅读
    6500VA水声功率放大器如何驱动换能器进行鱼群探测?

    HarmonyOS应用性能与功耗测试

    ,进入到控制台。 选择或者创建一个项目,如果新创建一个项目,注意选择 HarmonyOS。 进入项目空间,在左侧导航栏中选择 测试服务 > HarmonyOS 测试 ,进入
    发表于 12-26 16:39

    企业上如何选?华为耀服务器 L 实例助力一键上

    随着计算的蓬勃发展,中小企业和开发者对于借助计算技术提升业务效率和创新能力的需求日益增加。在众多云服务器产品中,选择一款合适的产品成为用户头疼的问题。华为耀服务器 L 实例(以
    的头像 发表于 12-11 09:23 343次阅读
    企业上<b class='flag-5'>云</b>如何选?华为<b class='flag-5'>云</b>耀<b class='flag-5'>云</b>服务器 L 实例助力一键上<b class='flag-5'>云</b>

    计算新选择,华为耀服务器 L 实例助您轻松上

    计算的魅力在于其灵活性和高效性,然而,对于初次涉足计算领域的中小企业和开发者来说,选择适合自身业务的服务器往往是一项艰巨的任务。在市场上,各种服务器型号繁多,参数设置复杂,让用
    的头像 发表于 12-07 23:58 321次阅读
    <b class='flag-5'>云</b>计算新选择,华为<b class='flag-5'>云</b>耀<b class='flag-5'>云</b>服务器 L 实例助您轻松上<b class='flag-5'>云</b>

    潮落起:中国桌面的产业变局

    桌面变局中,为什么更多企业首选华为
    的头像 发表于 12-07 09:11 622次阅读