0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型“狂欢”之下,算力之困何解?

sakobpqhz 来源:算力基建 2023-08-23 16:09 次阅读

“百模大战”愈演愈烈,AI产业化前夜似乎已在不知不觉中来临。海量数据爆发,计算量指数级增长,传统基础设施架构下的算力已经无法满足模型时代的需求。据OpenAI测算,全球AI训练所用的计算量呈现指数级增长,平均每3.43个月便会增长一倍,目前计算量已扩大30万倍,远超算力增长速度。国家信息中心联合浪潮信息发布的《智能计算中心创新发展指南》显示,当前我国超过30个城市正在建设或提出建设智算中心,但仍然无法满足相关需求。模型建设究竟需要多少算力?如何更大程度挖掘出现有算力的潜力?又该如何通过优化资源调度让算力价值最大化?模型“狂欢”之后,是时候回归“冷静”了。

01. 供需失衡下的算力之困

打造一个AI大模型究竟需要多少算力?公开数据显示,ChatGPT初始所需的算力就是1万块英伟达A100(一种AI芯片),价格超过7亿元。后续的调优训练每天消耗算力大概是3640PFLOPS,需要7至8个算力达500PFLOPS的数据中心支持,建设成本约为三、四十亿元。

“大模型的用户量、访问速度、网络带宽、训练模式等都会影响到其算力需求的大小。”中国科学院计算技术研究所研究员张云泉在接受《中国电子报》记者采访时表示,“要训练一个中国版的ChatGPT,首先要部署价值至少7亿元的硬件设施,还要准备大笔训练调优的费用。”

腾讯云异构计算产品负责人宋丹丹对《中国电子报》记者介绍称,大模型对算力的要求分为训练和推理两个阶段。训练需要短时间内的并行算力,而且要在短时间内能够做到交付,对算力的量、算力的稳定性和性能、弹性扩缩容能力有高要求。进入推理阶段,对于单位算力的性价比、成本、算力所处的位置、端应用服务是否能够快速连接等要求比较高。这就要求企业具备海量的可扩缩容的高性能算力,并且这些算力能够稳定交付。

近日,广发证券对国内AI大模型的训练和推理阶段算力需求,以及相应的成本进行了测算。结果显示,在暂不考虑软件层面算法优化带来的模型消耗算力成本下降的前提下,国内大模型在训练与推理阶段或将产生相当于1.1万台或3.8万台(乐观假设下)高端AI服务器的算力需求,以单片A100售价10万元、AI加速卡价值量占服务器整机约70%计算,则对应约126亿元或434亿元增量AI服务器市场规模。

“实际上,算力之困已经爆发了。”张云泉坦言,国内目前大模型存在技术水平不高、同质化等问题,主要是算力层面和国外差距比较大,没有算力基础,后面算法等都无法进一步发展。大模型企业不是不愿意尽快更新迭代,而是算力不够用,只能精打细算。

浪潮云首席技术官孙思清在接受《中国电子报》记者采访时表示,从通用算力到智能算力,算力需求的变化其实与场景需求密切相关。伴随模型参数规模越来越大,智能化程度越来越高,对并行计算能力以及包括存储、网络等在内的底层基础硬件能力,以及扩展性、灵活性的要求也越高。此外,算力还要与大模型本身进行更好的适配。

模型层出不穷,智能算力需求随之激增。据一些服务器厂商透露,目前智算服务器出货量已经超过通用CPU。不过,孙思清表示,未来,随着软硬件升级和大模型核心技术的提升,同等规模的大模型所需算力也许会逐渐减少。

实际上,不只是大模型,人工智能应用已无处不在。这些看得见的应用背后,皆是看不见的智能算力在支撑。如何破解算力供需失衡的新课题?业内专家普遍认为,要做“加法”,也要做“减法”。

02. 做“加法”:软硬皆施,提升利用率

“我国算力的利用率只有30%。”中国工程院院士邬贺铨坦言。工信部最新数据显示,中国算力总规模居全球第二,保持30%左右的年增长率。新增算力设施中,智能算力占比已超过50%。在多个权威市场分析机构的排名中,美国和中国都属于算力的领跑者,主要差距在于计算效率和应用水平。

提升算力供给能力是重中之重。“不同于超算需要的64位双精度浮点运算,智能算力多为32及以下的低精度运算,它是分阶段的,可以通过硬件加速来实现算力提升。”张云泉表示。比如,随着数据量的增长和计算任务的复杂化,CPU、GPU需要具备更高的计算和处理能力,存储器需要具备更大的容量和更快的读写速度。同时,算力提升还需要更大的网络带宽、速度更快的网络设备,从而更快地完成大规模数据传输和处理。

“硬件层面,CPU、GPU等核心硬件的性能越来越高,将有效提升算力供给能力;软件层面,模型算法和计算框架的优化,也能缓解一定的算力压力,减少对算力的依赖。”孙思清表示。这“一增一减”之间,算力供需平衡将找到新的出路。

“智算即异构计算。相对于只用CPU的通用计算,在服务器里CPU+GPU就是异构计算。背后的逻辑,是让最适合的专用硬件去做最适合的事。”宋丹丹表示,“对于整个算力的优化是分层级解决的。除了计算资源自身的架构和性能提升,也就是卡的迭代外,我们会在虚拟化层,通过GPU虚拟化或者计算池化等等一系列的技术,把算力做更多的多机多卡互联,然后把它以云服务、容器、Serverless或者实例的模式更灵活地对外使用。在平台层,通过任务流的模式,以深入上层服务的方式进一步优化计算效率。”

邬贺铨指出,降低算力使用门槛,才能让更多企业用得上、用得起现有的算力资源。目前国外有些企业已经把硬件服务器资源开放出来,也包括算力、算法的模型平台。而在国内,百度、阿里、华为等大企业也已开放平台,这意味着中小企业只要有意愿需求,都可以利用这些平台做数据训练。“目前国内已经意识到要让算力更简单、降低算力使用门槛的趋势。”他说道。

03. 做“减法”:化繁为简,优化资源调度

要让算力发挥更大价值,除了提升现有算力利用率,还可以通过简化算力资源匹配与调度过程的方式实现事半功倍的效果。

日前,复旦大学率先选择将智能计算平台CFFF部署在公有云上。据复旦大学“浩清”教授、人工智能创新与产业研究院院长漆远透露,有赖于公共云模式,跑在CFFF平台上的项目可享受到超千卡并行的智能算力,千卡并行的有效算力达到行业领先的92%,可拓展性达到万卡,万卡并行有效算力也可达90%。

中国工程院院士、阿里云创始人王坚指出,从计算到智算,公共云提供的是像电一样的计算服务,把算力基础设施部署在公共云上将加速推动产业步入开放发展的新阶段。在他看来,AI大模型的训练和运营需要集约化、在线的算力基础设施。集约化的算力基础设施是基础支撑,要求更高的计算并行性、更高的计算效率、更低的计算成本,并且要求适配各类专用计算芯片。在线化对算力提出更高要求,从模型训练和应用看,需要形成“用户膨胀、使用反馈、模型进化”的飞轮效应,海量用户在线使用和大规模API调用集成等都需要在线化的算力资源。这种集约化、在线化的需求,与公共云集中建设运维、弹性伸缩、按需服务的商业模式不谋而合。

“云是大模型最好的承载方式,也是训练和应用大模型的最佳平台。”宋丹丹指出,一方面,云上具备领先的软硬件架构、面向未来的技术架构和研发体系。对AI企业而言,从本地搭建服务器架构可能不是一个合适的选择。借助云上丰富的能力和产品,如云上的算力、网络、向量数据库,企业可以聚焦于大模型研发本身,业务开发的敏捷度也能进一步提升。另一方面,打造大模型需要的算力规模,对企业现金流的挑战很大。云上的算力形式,可以根据用户需求灵活分配计算资源,同时也提升了大模型的训练和推理效率。

孙思清认为,公有云集约化的特点有助于算力共享模式的实现。大模型的训练并不是一直满负荷进行的,空闲的时候,可以利用云的模式将算力池化,与其他有算力需求的企业共享。但同时他也指出,现实操作起来存在困难,数据归属、隐私保护、合规性等问题都需要考虑。

他表示,算力可以当作“水电”来用,但数据不可以。“水电”能动,但“水厂”“电厂”不能动,分布式算力并不能适用所有场景。此外,算力互联还需建立标准化的运营体系,算力如何计量、如何付费、如何结算都需要探讨。

张云泉表示,具体问题要具体分析,不能一概而论。几十亿参数规模的大模型放在云上可以,几百亿、上千亿规模的大模型肯定不行。中等规模以下的智算中心可以部署在公有云上,但大规模的智算中心如果部署在公有云上,网络延迟会很大,难以支撑高端计算。另外,运营商也会考虑到用云成本以及上云后是否会被云厂商“锁定”等问题。

他认为,优化算力调度不能光靠算力网络的互联互通来解决问题。首先要尽快推进接口协议,定义标准、建立标准;其次要优化算力调度管理软件,同时建设安全体系;此外,要选择成熟芯片和生态完善的技术路线,这样智算中心用起来效率才能达到比较高的水平。建议组建生态联合体,共同打造1~2个大规模的智算中心,协同训练少数几个通用大模型,共享算力资源。”

“未来,大模型将走向相对开放的生态,开源是一个重要趋势。”孙思清说道。他建议,政府层面应做好算力资源的统筹,重点聚焦合规性管控和集约化建设,把握好节奏,避免“一窝蜂”导致大量算力的浪费。企业层面应持续加打技术创新与场景实践力度,分工合作,协同发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运营商
    +关注

    关注

    4

    文章

    2394

    浏览量

    44398
  • AI
    AI
    +关注

    关注

    87

    文章

    30348

    浏览量

    268602
  • 算力
    +关注

    关注

    1

    文章

    944

    浏览量

    14759
  • 大模型
    +关注

    关注

    2

    文章

    2354

    浏览量

    2539

原文标题:模型“狂欢”之下, 算力之困何解?

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中国大会召开,业界首个高质量评估体系发布

    首次完整地构建了人工智能时代高质量的理论体系,并探索性提出业界首个 "五位一体"的高质量评估体系。 发布现场 在当前由大模型和AIG
    的头像 发表于 09-28 16:50 245次阅读
    中国<b class='flag-5'>算</b><b class='flag-5'>力</b>大会召开,业界首个<b class='flag-5'>算</b><b class='flag-5'>力</b>高质量评估体系发布

    中国智能汽车腾飞,为什么异构是第一生产

    智能时代的“世纪车”,异构是第一驱动力
    的头像 发表于 09-14 10:32 3607次阅读
    中国智能汽车腾飞,为什么异构<b class='flag-5'>算</b><b class='flag-5'>力</b>是第一生产<b class='flag-5'>力</b>?

    浅析三大异同

    随着一年多前ChatGPT的出现引爆人工智能(AI)浪潮,支撑大模型背后的“”概念突然闯进我们的视野,成为科技圈炙手可热的新词,引领着最新潮流。作为数字经济时代新生产,也许不少人
    的头像 发表于 08-30 12:56 664次阅读
    浅析三大<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>之</b>异同

    摩尔线程GPU底座助力大模型产业发展

    以大模型为代表的新一代人工智能技术是引领新一轮科技革命和产业变革的战略性技术和重要驱动力量,随着对需求的日益高涨,人工智能底座公司日
    的头像 发表于 08-27 16:15 585次阅读

    模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问
    发表于 08-20 09:04

    名单公布!【书籍评测活动NO.41】大模型时代的基础架构:大模型中心建设指南

    工作日内未联系,视为放弃本次试用评测资格! 书籍介绍 大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的及基础架构。本书针对如何为大
    发表于 08-16 18:33

    摩尔线程张建中:以国产助力数智世界,满足大模型需求

    摩尔线程创始人兼CEO张建中在会上透露,为了满足国内对AI的迫切需求,他们正在积极寻求与国内顶尖科研机构的深度合作,共同推动更大规模的AI智集群项目。
    的头像 发表于 05-10 16:36 912次阅读

    力系列基础篇——101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么?那必须是:
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    液冷是大模型需求的必然选择?|英伟达 GTC 2024六大亮点

    在这个以高性能计算和大模型推动未来通用人工智能时代,已成为科技发展的隐形支柱。本文将重点探讨的演进,深入分析在不同领域中
    的头像 发表于 04-10 12:57 535次阅读
    液冷是大<b class='flag-5'>模型</b>对<b class='flag-5'>算</b><b class='flag-5'>力</b>需求的必然选择?|英伟达 GTC 2024六大亮点

    数据语料库、算法框架和芯片在AI大模型中的作用和影响

    数据语料库、算法框架和芯片的确是影响AI大模型发展的三大重要因素。
    的头像 发表于 03-01 09:42 1016次阅读

    能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    ChatGLM2-6B、AIGC、Llama2、SAM、Whisper等超大参数模型 还有一份详细的英文的规格表: 另外,能RADXA微服务器服务器,还是大学生集成电路创新创业大赛# 第八届集创赛杯赛题目
    发表于 02-28 11:21

    Sora需求引发业界对集结国内AI企业的探讨

    据周鸿祎观察,Sora视频分析所需恐远超千亿规模模型。因而,考虑到如今国内芯片供应受限,问题至关重要。事实上,Meta已有约50万台
    的头像 发表于 02-25 10:03 559次阅读

    智能规模超通用,大模型对智能提出高要求

    电子发烧友网报道(文/李弯弯)是设备通过处理数据,实现特定结果输出的计算能力,常用FLOPS作为计量单位。FLOPS是Floating-point Operations Per Second
    的头像 发表于 02-06 00:08 6174次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    AGI时代的奠基石:Agent++大模型是构建AI未来的三驾马车吗?

    AI Agent的训练离不开,服务器作为一个强大的计算中心,为AI Agent提供基础,支持其进行复杂计算和处理大规模数据的任务,包括模型
    的头像 发表于 12-21 13:34 1160次阅读
    AGI时代的奠基石:Agent+<b class='flag-5'>算</b><b class='flag-5'>力</b>+大<b class='flag-5'>模型</b>是构建AI未来的三驾马车吗?