算力基础设施的风险与挑战-电子发烧友网

编者按算力网络有一个美好的愿景，就是希望算力和算网，能像电力和电网一样：

算力可以标准化，有统一的计量单位。类似电力计量的千瓦时，或称为度数。
有很多算力中心生产算力，类似电厂生产电力。
生产出来的算力，通过接入算网，最终供应给算力的客户。类似电厂的电力，通过电网接入千家万户。
算力“随时随地，无处不在”，算力客户可以非常方便的随时接入任何位置的算力，支撑自己的业务。类似无处不在的电源接口，方便我们随时随地使用电力。
从基础设施的角度看，就是希望算力基础设施也能像电力基础设施一样，通过更大规模的人力物力投入，实现算力基础设施的领先。

但算力基础设施，和我们的能源、电力、交通等传统基础设施相比，仍存在许多风险和挑战。今天这篇文章，我们抛砖引玉。

1、算力基础设施战略价值巨大

本章节内容节选自《2022-2023全球计算力指数评估报告》，由IDC、浪潮信息、清华全球产业院。内容有调整。

通过数字技术推动业务变革，进而实现数字化转型，已经成为传统企业发展的必由之路。随着数字技术的不断进步和发展，以及数据量的爆发性增长，强大的算力，成为了创新和突破的关键要素。以人工智能领域为典型，人工智能大模型的发展，受算力发展的直接影响。人工智能算法和技术被应用于各种领域和行业（AI+），如自动驾驶汽车、医疗诊断、金融预测等。算力的发展不仅激发数字技术的创新和突破，也推动了数字技术在各行各业的广泛应用与深度融合，为各行业能够实现科技创新提供了重要支撑。

在数字经济时代，算力是国家经济增长的关键驱动力之一。根据上图可以看到，算力的提高对一国经济增长的拉动效应非常显著，且随着计算力指数的增加，提升效应会越来越明显。

评估结果显示，十五个样本国家的计算力指数平均每提高1点，国家的数字经济和GDP将分别增长3.6‰和1.7‰。

总之，算力基础设施支撑并加速新质生产力和千行百业的发展，算力基础设施是整个国民经济发展的重中之重。

2、算力基础设施的风险和挑战

虽然算力和我们的铁路、公路、水利、电力等行业一样，被称为基础设施。但算力是新型基础设施，和这些传统基础设施相比，仍存在非常大的差异性。而这些差异性，也基本上就是算力基础设施存在的风险和挑战。

本章节，我们就算力基础设施的风险和挑战进行分析，无法面面俱到，仅限抛砖引玉。关于算力基础设施的风险和挑战，希望能够得到全行业的重视。全行业一起努力，能够构建符合技术和市场规律，并且能够支撑国家数字经济快速发展的新型算力基础设施。

2.1 算力难以标准化

如果算力可以公平且标准化的度量，那么算力就可以像电力一样，大规模生产和消费。但实际的情况，远比想象的要复杂的多。

我们通过两个案例进行分析。

首先是CPU 处理器的案例。CPU是最通用的处理器，没有之一。我们以CPU中两个重要的部件进行分析：

Cache，多核CPU中通常集成了L1-L3三级Cache。如果遇到流式数据处理，此刻Cache几乎没有价值；如果是循环等结构的业务算法，Cache的价值就非常大。反过来，流式数据处理，会优先选择Cache尽可能小一些的处理器；而循环类结构的业务算法，会优先选择大Cache的处理器。
协处理器，CPU内部也集成协处理器，如Intel AVX/AMX指令协处理器。如果是传统的控制类任务，就不需要AVX/AMX协处理器。但如果是视频、图像等任务，就需要AVX；如果是AI类处理，就需要AMX。反过来说，如果是控制类的任务，AVX/AMX协处理器对我来说没有价值，如果仍需要为这些协处理器的算力付费，则是相对不公平的。客户会优选没有AVX、AMX等协处理器的CPU处理器。

第二个案例，CPU vs 专用处理器。如果同样的1000TOPS算力（折合成TOPS统一单位），CPU算力和专用处理器的算力哪个更好？一般来说，CPU算力更好，因为CPU算力更加通用，可以用在几乎所有场景，并且对软件和软件开发者的要求更低。而专用处理器，仅能支持某个特定场景，甚至某个特定算法算力，对其他的业务场景来说，价值几乎为零。这样的话，这两种算力，能卖相同的价格吗？我们假设CPU 1000TOPS算力价格为1000元/月，那么，专用处理器 1000TOPS算力的价格10块钱，都不一定能找到合适的客户。

算力为什么难以标准化？本质的原因在于计算引擎和业务算法的耦合性。在加减乘数等基本指令的通用CPU基础上，做的任何优化，其实都是面向某些特定规律的计算或算法优化。这些加速计算引擎只有找到匹配的业务算法，才能发挥价值；反过来，如果没有匹配的业务算法，计算引擎的价值就很低很低。

简单总结如下：

一方面，计算引擎微架构的复杂性，决定了计算性能的测量是一件非常复杂、难以面面俱到并且足够公平的事情。
另一方面，计算的通用性，或者说对业务算法的广泛覆盖性，也是一个非常重要的维度。而这个维度，在算力计量之外。
此外，计算引擎和业务算法的耦合性，决定了算力的价值到底能发挥几何。计算引擎大体上可以分为三类：通用的CPU、并行计算的GPU等、以及专用加速的各种DSA/ASIC，这些计算引擎的算力无法完全按照算力来折算，而要根据算法和计算引擎的匹配，来计算实际算力。
那么，我们是否可以以业务算法为基准，谁能够更快速的完成一个特点单位的业务算法，谁的性能就好，谁的价值就高。答案也是否定的。因为业务算法千千万，单个业务算法无法评价，所有的算法加权综合评价也意义不大。对具体的业务客户来说，自己的算法能不能更快速更低成本的计算，才是需要关心的事情。
还有一个重要的方面，业务算法本身的价值。比如，同样的算力，如果用于AI计算，一般来说，价值要高一些。如果用于网络存储计算，则价值要低一些。这些也会影响到专用加速器算力的价格定义。
等等。

总结一下，我们认为，计算是一件非常复杂的事情，算力（也即计算的能力）的标准化，几乎是一个伪命题。

2.2 业务的算力需求指数级增长

从上图可以看到，从2012年深度学习的兴起，算力需求逐渐增强，跳脱摩尔定律约束，需要GPU加速处理器，以及Scale out的集群计算。这一时期，算力需求每3.4个月翻倍。从2018年开始，随着大模型的流行，算力需求进一步加速，每2个月就会翻倍。与此同时，Scale Out也越来越难以为继，集群规模从千卡到万卡，再到十万卡。集群规模的不断扩大，使得AI计算的成本越来越成为天文数字。例如，微软与OpenAI制定的新一代AI算力芯片和基础设施项目星际之门，预计耗资1000亿美元；目标参数规模为1000万亿，是GPT4的10000倍。业务需求和算力基础设施的差距成指数级增长，两者之间的矛盾进一步加剧。要想根本性的解决问题，一方面需要单节点的计算架构的创新（Scale Up创新），也需要更高效的集群网络解决方案，进一步支持更大规模的集群计算（Scale Out创新）。

2.3 算力技术体系的门槛非常之高

算力涉及芯片、硬件及基础设施、软件以及业务四个主要的方案，每一项都非常的复杂，且有极高的技术门槛：

芯片，是计算（算力）的硬件载体。随着芯片工艺进入10nm以内，逐渐接近物理极限，芯片制造的门槛越来越高，一代新工艺投入通常在千亿美金级别。单芯片所能容纳的晶体管数量已经达到数百亿级，再加上Chiplet先进封装的加持，未来，单个芯片的晶体管数量会突破万亿级大关。这么庞大的晶体管数量，如果进行芯片的系统架构和微架构设计，也是非常大的挑战。

硬件设备和外围基础设施。在智算时代，硬件设备的功耗都非常的恐怖。传统CPU服务器单台功率在300W左右，而目前主流GPU服务器的功耗都达到了10KW左右，整整提升了30倍以上。于是，传统的风冷散热已经逐渐走出历史舞台，更高技术要求的液冷成为了主流。此外，数据中心的功耗越来越大，绿色数据中心越来越成为必然的要求。如何降低PUE，需要数据中心基础设施统筹的技术革新和综合能耗优化，甚至需要能源和电力产业的配合。

软件，是计算的灵魂。系统级软件如操作系统（如Linux）、集群操作系统（如Kubernetes），以及其他基础软件、数据库软件、中间件软件，以及加速计算框架、业务框架等等，软件生态五花八门。每一项都非常的复杂，每一项其生态的形成都经过了漫长而艰难的阶段。

业务。新的技术、新的场景、新的业务落地，有非常大的难度。特别是跟硬件关联度非常大，受硬件物理条件的约束的场景，如自动驾驶智能汽车、XR元宇宙、人形机器人等。如何实现软硬件深度协同和融合的综合算力技术体系，受到很多现实的约束，实现的难度巨大，需要更多的创新驱动。

总之，从算力芯片，到硬件以及相关软件和开发框架，软硬件体系极度庞大和复杂，技术门槛非常高。

2.4 算力技术迭代很快

TSMC 3nm工艺已经量产，2nm、1nm也都在未来几年的路线图中。并且，TSMC已经开始在攻关0.1nm工艺，半导体工艺即将进入亚纳米（埃米）时代。在存储领域，近些年来还兴起了3D封装技术，使得集成电路从二维进入三维。在封装领域，Chiplet先进封装机制，把多个芯片裸DIE集成到一起，从3D到4D，都进一步增强了单位面积的晶体管集成度。

随着单芯片所能容纳的晶体管数量逐渐增加，计算的架构也越来越复杂，逐渐从CPU同构、CPU+GPU的异构，走向了CPU+GPU+DSAs的异构融合。2023年9月15日，在湖南长沙的世界计算大会上，《异构融合计算技术白皮书》由工信部电子五所发布（关注软硬件融合公众号，回复“白皮书”，可下载此白皮书）。

算力芯片的设计模式，已经从“硬件定义软件”转向“软件定义硬件”。传统的算力芯片设计模式，是先有芯片，然后是驱动和开发框架，再然后是基于框架的软件任务。但这种方式，每家芯片公司都是一个独立的架构，独立的生态。一方面，构建生态的门槛非常高，另一方面，这种方式对客户非常不友好。特别是在计算的主流方式从单机走向大规模集群计算的当下，客户既倾向于统一的计算平台，又不想被特定的厂家绑定。软件定义硬件的方式，是客户和芯片供应商最大的公约数。

这里就计算的形态再做进一步展开。随着大模型的发展，计算需求的规模越来越大，和单颗芯片所能提供的性能差距的数量级，也在不断增加。千卡集群、万卡集群，甚至十万卡、百万卡集群也已经在路上。超大规模集群计算，甚至跨云边端的融合计算，已经成为了计算的主流形态。

摩尔定律告诉我们，每18-24个月芯片的性能就会翻倍。NVIDIA黄仁勋的黄氏定律告诉我们，计算性能会每一年翻一倍。这两个定律意味着，算力芯片的迭代周期是1-2年一代。

软件的迭代就更快了，软件开发更是讲究“小步快跑”，通常是2-3个月一个小迭代，一年一个大迭代，不然就赶不上业务快速发展的需要。

2.5 算力基础设施的生命周期非常短

传统基础设施，技术更新换代较慢，传统基础设施的生命周期很长，通常在50年以上，有的甚至100年以上。

而受算力各项技术的快速更新迭代，特别是摩尔定律和黄氏定律的影响，算力基础设施的生命周期通常4-5年。因为，4-5年时间之后，硬件的可靠性会越来越差，并且计算的各项支出越来越不够经济，必须要更换更加先进的计算设备和相应的软硬件技术栈。

3、开放的技术栈，开放的产业链

国产算力芯片最大的困境在于生态：构建一个新的计算生态，门槛非常高，千亿级投入都不一定成功。但行业除了NVIDIA CUDA生态之外，还有一个更加强大的生态，即全球几乎所有互联网公司（客户）都支持的开源软件生态。基于开源软件，实现开源软件定义的开放硬件，形成一个更加开放更加强大的开源的技术（栈）生态。

国家多个部委发文，说要构建全国一体化算力网。但一体化算力网，并不意味着是一家公司独大，而是意味着算力的充分利用和价值的最大化发挥。我们认为，未来也是类似公有云的竞争态势，最终形成5家左右具有全国甚至全球影响力的算力网公司，以及10家以上具有行业和领域特色的专业算力网公司。总之，整个产业链是开放的：