近日,2023开放数据中心冬季全会(简称:ODCC 2023)在银川召开,华为联合信通院在新技术与测试组共同申报的《AI数据中心网络建设指导意见》立项成功,该项目旨在促进行业数智化转型、推动产业升级合作,为各行业构建面向AI时代的数据中心网络提供参考。
华为数据通信产品线数据中心网络领域
产业营销副总监胡秀丽
AI算法迈入万亿参数大模型时代,算力需求增长近十万倍,大规模计算需要高效协同数万张AI处理器,网络基础设施是长稳训练的关键之一。国内外已有对传统数据中心网络建设的指导和规范,但AI业务与传统数据中心业务对网络诉求差异较大,亟待优化网络架构,革新网络技术,《AI数据中心网络建设指导意见》指出,AI数据中心网络的建设可从组网规模、通信效率、高可用性三方面着手:
传统三层网络存在网络层数多,网络吞吐率低的问题,建议优化网络架构,采用两层框盒或框框组网,规模提升4倍以上,可满足大规模万卡AI集群,大幅度降低组网成本约30%。华为打造端到端200GE/400GE设备,构建大带宽AI无损网络,4倍于业界规模,完美匹配AI场景诉求。
组网规模从千卡向万卡演进,大流量模型下网络负载不均衡,严重影响AI训练效率。解决流量负载不均,可将AI训练场景下搜集到的整网信息作为创新算路算法的输入,从而得到最优的流量转发路径,实现AI训练场景下整网流量100%的均衡度,提升网络带宽利用率。华为独创网络负载均衡技术,提升网络吞吐至98%,同等服务器规模下AI训练效率提升20%。
AI任务的训练要求网络具有超高的稳定性,训练过程中一旦链路异常就可能导致任务训练中断,要保证网络有足够的容错能力,不影响AI相关业务,高可用网络需要考虑:训前主动识别链路亚健康,确保训前网络0风险;训中出现任务异常后,需要能一键自动识别卡间的路径和路况,做到分钟级诊断网络问题点,提升排障效率。华为网络数字地图提供可视化运维方案,高精度采集数据,实现网络一键式故障诊断,训中排障效率提升90%。
本次立项将针对AI场景下的网络新需求,于2024年上半年完成不同集群规模选项、网络负载均衡、网络高可用等技术的探索,并输出建设原则指导书,为构建面向AI时代的高性能网络建设提供参考。华为也希望与众多合作伙伴一起,推动技术的发展和应用场景的拓展,实现人工智能技术的可持续发展和社会的共同繁荣。
原文标题:华为联合信通院成功立项《AI数据中心网络建设指导意见》
文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
原文标题:华为联合信通院成功立项《AI数据中心网络建设指导意见》
文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。
相关推荐
出席,聚焦庆阳大数据中心产业园建设发展,深入探讨能源基础设施高效化、绿色化、智能化发展趋势,打造西部地区数据中心建设与运营的示范样板,为“东数西算”战略深入推进提供有力支撑与
发表于 12-09 09:47
•195次阅读
近日,《西藏金融数据中心建设规范》顺利发布,为高海拔地区金融数据中心的新建、改建及扩建提供明确的技术指导和规范。《规范》的发布,可助力提升西藏金融数
发表于 12-04 11:41
•229次阅读
Alliance,以下简称 “NIDA”)携手中国信息通信研究院等9家组织成员共同发布了《智算数据中心网络建设技术要求》(以下简称 “技术要求”)。该技术要求明确了智算场景下
发表于 12-04 11:13
•333次阅读
在Meta,我们相信开放的硬件会推动创新。在当今世界,越来越多的数据中心基础设施致力于支持新兴的AI技术,开放硬件在协助分解方面发挥着重要作用。通过将传统数据中心技术分解为其核心组件,我们可以
发表于 11-25 10:05
•350次阅读
数据中心能源产品与解决方案亮相盛会,同时,华为数字能源数据中心能源及关键供电产品线副总裁阳必飞受邀参与此次盛会,并发表《智算数据中心建设之道
发表于 11-23 14:05
•290次阅读
随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接技术的发展变得尤为关键。
发表于 10-22 16:23
•286次阅读
超过60%的中国企业计划在未来12至24个月内部署生成式人工智能。AI、模型的构建,将颠覆数据中心基础设施的建设、运维和运营。一个全新的数据中心智能化时代已经拉开序幕。
发表于 07-16 11:33
•702次阅读
近日,华为云在青岛上合卡奥斯新城数字经济产业园内,成功举办了山东节点数据中心的竣工仪式,标志着这一重要基础设施建设项目正式迈入运营前的最后准备阶段。该
发表于 07-02 10:49
•732次阅读
数据中心布线标准是现代IT基础设施的基石。它们为组织建立可靠和有效的网络提供了指导方针和框架。了解这些标准对于寻求优化其数据中心运营和确保无缝连接的组织至关重要。 什么是
发表于 06-14 10:51
•489次阅读
近日,埃隆·马斯克旗下的xAI公司宣布计划在美国田纳西州孟菲斯市投资数十亿美元,建设一座全新的人工智能(AI)数据中心。该数据中心将容纳一台巨型超级计算机,旨在提升xAI在构建聊天机器
发表于 06-11 15:49
•473次阅读
在华为数据通信创新峰会2024期间,华为联合IEEE面向全球发布L4数据中心自动驾驶网络白皮书,
发表于 05-16 09:09
•594次阅读
华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛
发表于 05-15 09:15
•649次阅读
2024 开放数据中心委员会(以下简称ODCC)春季全会在江西婺源顺利召开,全会由ODCC副主席李洁博士主持。全会期间,华为联合中国信通院云大所数据
发表于 04-02 09:25
•1463次阅读
华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络,以网强算,全面释放AI时代算力
发表于 03-22 10:28
•751次阅读
MWC24 巴塞罗那期间,华为联合Tolly Group在“IP Club技术菁英汇”峰会上,面向全球发布L4数据中心自动驾驶网络方案测试报告。
发表于 02-29 09:37
•509次阅读
评论