0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI算力调度平台,大模型时代云计算的新生意

甲子光年 来源:甲子光年 2023-09-28 16:57 次阅读

提供AI算力的另一种方式。

大模型时代,云计算厂商如何赚钱?

最常见的方式是提供算力。大模型需要大算力,因此,对算力尤其是英伟达GPU的巨额投入是不可或缺的。英伟达曾透露,2023财年数据中心业务有40%的收入来自超大规模数据中心与云服务商。

但现在,云计算厂商又多了一门新生意。

近期,有“混合云第一股”之称的云厂商青云科技推出了两款新的云产品——AI算力调度平台与AI算力云。AI算力调度平台是一款软件产品,它介于底层的资源层与上层的模型层之间,通过整合不同来源、类型和架构的算力资源,实现统一调度与运营,为用户提供按需获取和调度的服务;AI算力云,就是以青云为主来运营的AI算力服务。

这两款AI算力产品与服务针对的是算力中心的短期建设与中长期运营的需求。青云科技总裁林源表示,今天中国云计算市场处在算力建设阶段,大量的数据中心如雨后春笋般出现,这些建设者有地方政府、国资央企、地方AI集成商等。对于建设者而言,成本与技术的挑战都很大,比如一台最新的一台英伟达服务器高达200万元。如此大的投资,怎么建?建成之后如何运营,如何赚钱?这些问题都需要有人来解决。

青云科技的AI算力调度平台已经成功服务于国家超算济南中心。济南超算中心是一个多元计算中心,对外提供1000P算力、300PB存储,算力类型包括HPC超算,主要服务于山东省的高校;以CPU为主的通用算力,主要服务于传统的政务云、企业数字化应用;以GPU为主的智算,主要服务于智慧城市,以及正在爆发的AI需求。

济南超算中心的建设覆盖了几乎所有产业链上下游公司,但青云科技为其独家提供了算力调度平台,至今已经运营了3年。济南超算中心目前已经盈利。

对于AI算力云服务,不同于大厂选择重金投入GPU来获取稀缺的算力资源,青云科技采用了“轻资产”运营,以生态合作的方式共同运营AI算力。

以济南超算中心为例,建成之后不仅服务于当地企业,也会服务于全国其他地区的企业。当青云科技的客户有算力需求,青云科技可以通过直接调度济南超算的算力向客户提供AI算力资源。因此,青云科技既是济南超算的供应商,也是其渠道商。

这样的案例不在少数。青云科技已经与北京、宁夏、河南、湖北、四川等地区的算力中心建立起合作关系。

在2023年半年报中,青云科技披露AI算力服务的收入超2000万元。林源表示,未来AI算力产品与服务将会成为青云科技营收的主力。

过去十年,中国的云计算市场一共经历了三次比较大的机会。第一次是数字化,移动数字化催生了公有云,产业数字化催生了私有云;第二次是信创与国产替代。而当前爆发的生成式AI,就是第三次大机会。

林源认为,2023年由GPU驱动的智算,正如十年前的2013年由CPU驱动的通用云计算。而这一次的市场规模,要比过去大10倍、甚至100倍。

近期,「甲子光年」等媒体采访了青云科技总裁林源,青云科技产品经理苗慧。以下是专访实录,略经删改:

1.与大厂定位不同

问:青云的算力调度产品有哪些特色?

苗慧:简单举几个例子。第一,青云针对上百台机器的大集群,研发了更加优化的调度算法。比如在调度的链路标签上,尽可能做到调度同一个交换机,减少数据的损耗。第二,在应用环境上,青云应用了K8s和Slurm两种调度平台同时为客户服务,是完全集成好的。在颗粒度和运维传统机器方面,也会有更多的优化。

19bf9d24-5dd6-11ee-939d-92fbcf53809c.jpg

图片来源:青云科技

问:大厂、运营商、私有云厂商也有软件能力,为什么说青云的AI算力调度运营是青云科技的优势?

林源:首先,私有云厂商想做,需要补齐十几年公有云运营的经验。第二,大厂的定位一定是发展自己的云,而不是支持别人去做云,或者说支持第三方做云只是他的一个项目而已,主力还在自己的云产品与服务。

苗慧:比如对于国家超算的人员配置,根本没有研发这个岗位,全都是运维人员。用户通过青云AI算力调度平台,申请10台机器,5分钟内就能得到。否则,运维人员需要两个人部署三天,这就是更多的投入。

问:英伟达今年发布了AI云产品DGX Cloud,青云的产品和英伟达DGX Cloud在定位上有没有相似?

苗慧:DGX-Cloud还是基于硬件。英伟达在今年发布了24台机器的整机,巨大的机器上云一定会有优势。但DGX Cloud不在中国区运营,从资源层和运营层都是其自身的。青云的算力调度产品不仅自己的公有云能用,还能给到任何一家算力中心。

林源:英伟达DGX Cloud还是单一算力,肯定以GPU为主。站在英伟达的角度,他服务于大模型的训练、推理,定位就是面对AI的场景,以及卖GPU卡。而青云科技根据中国市场国情,需要向下兼容,不同的客户需要的芯片算力种类不同,既有GPU,也有CPU、超算。比如我们跟英特尔9系列做适配,一个芯片2T内存,在推理场景比英伟达还要好一些。青云的算力调度平台,针对的是多元算力。

2.“轻资产”提供AI算力

问:青云自身在算力上的投入是怎样的?

林源:GPU不太一样,青云不会跟云大厂拼投资,而是以相对“轻资产”的方式与别人一起运营AI算力云。青云是联合运营方,投资的是技术与产品,但不会花1个亿买几百张卡、几百台服务器。重资产不是青云的价值所在。

问:那谁来做算力层面的投入?

林源:目前来看,算力层面上的投资建设者主要有以下几种:第一种是地方国企和地方央企,例如能源公司,他们有强烈的兴趣将电力转变成算力。第二种是地方政府,他们需要新的工具来促进产业聚集,提升GDP,有些直接进行投资,有些与央企或银行合作。第三种是大模型公司、AI芯片公司等,他们在各地都参与建立了算力中心,但缺乏标准平台,他们也想销售硬件或整合解决方案,通常更愿意与独立的供应商合作。我们之间互为渠道伙伴,青云协助他们进行计算资源调度,并一起提供AI计算资源云服务。

以济南超算为例,济南超算会基于他投资的算力直接卖给他的客户,青云也会出售给青云的客户,青云既是他的供应商,也是他的渠道商。未来所有的本地数据中心建设都会面临这个问题,当地企业会消费一部分,剩余部分他会希望有人帮他消耗。AI算力云与算力调度中心是青云的同构产品,可以进行系统级的产品对接。

19e1e33e-5dd6-11ee-939d-92fbcf53809c.jpg

图片来源:青云科技

问:除了和济南超算有合作外,还有其他的合作方吗?

林源:跟北京、宁夏、河南、湖北、四川等地区有合作。北京是以高校为主,宁夏是地域性的算力投资建设者,四川、湖北是能源公司,河南是地方政府。还有一些小城市,主要是一些AI合作伙伴,对接当地的算力中心后,用青云的调度平台做赋能。

问:青云自己提供云服务和青云给甲方提供算力调度服务,会成为一种竞合的关系吗?

林源:我们先看下市场现状,为什么会有那么多供应商和地区云、国资云、地方私有云平台呢?这是中国的市场形态决定的,每个人都有所属的客户和资源。AI来了之后,市场会不一样吗?我觉得不会那么快改变。

问:很多大模型厂商会选择自己买卡,这类厂商对于青云科技的AI算力云还有需求吗?

林源:大模型厂商自己的规划中,有相对固定的部分,他会更愿意买卡,因为现金充裕,会更加可控,这部分跟青云确实没太大关系。但在模型训练阶段、项目落地阶段,有很多弹性需求,比如他需要训练行业模型,同时希望跟一场算力云厂商合作提供MaaS的服务。大模型公司一定会买一部分,自建一部分。

问:目前市场上算力资源不够,怎么办?

林源:算力不够的核心是GPU的供货问题,不在于我们。用户一般是签完合同后等着我们的算力供应,所有厂商都面临相同的问题。但是不同厂商的解法不一样,大厂是靠钱买,青云的方式是与合作伙伴一起。青云的核心是调度平台,但不妨碍青云一起给客户提供AI算力云。

问:在青云开放同盟中,有哪些厂商?青云处于什么地位?

林源:可以分为技术生态和商业生态。技术生态的第一层是GPU、CPU等异构芯片;第二层是模型生态(MaaS),包括主流的商业大模型、开源大模型。在芯片层跟模型层之间,就是算力调度层。算力调度层不仅靠青云,也有很多厂商在做模型的加速和模型的驱动。技术生态还有一环,就是行业ISV。

商业生态,包括我们说的智算中心建设方,以及天然就能帮你售卖的合作伙伴。

问:在AI时代,大家合作的意愿会比以前更强吗?在巨大的市场红利面前,为什么会愿意收益共享?

林源:先谈主观看法,我认为有必要这么做,大家就应该各司其职、合作共赢。现在持这种想法的不只青云一家。哪怕是客户,也不希望一家独大,不希望被一家厂商绑定。他希望在每一个细分领域找到最优秀的人,为他提供整体解决方案。这是一个正常的、合理的商业模式。

第二点是客观。一家企业很难从底层资源到上层应用,自己把做有事情做好,AI时代这会比过去更难。现在的经济环境,要核算投入产出比,需要成为所有行业的专家,才能“单打独斗”,这是一个客观的挑战。

问:AI会给现有的云厂商格局带来一些什么样的变化?青云如何定位自己未来的位置?

林源:AI一定会对于现在的云厂商带来变化。第一,对于底层技术的需求,以及对于合作的模式,都在发生变化。

第二,现在所有人都在同一起跑线上。我判断会有一些新晋做AI Cloud的公司进入市场。传统的IDC已经不适合GPU运行,因为能耗、设计都不一样,传统IDC面临改造升级。

第三,有些云厂商自己也做大模型,青云科技不做,而是深耕AI算力调度平台。面对新的AI应用需求,大家需要很多技术积累、技术迭代,这特别像2013年的云时代。

在资本侧,确实可以自己投资建设,但现在AI不缺投资者与建设者,缺的是运营平台。资本会有影响,但不会像以前那么大。

总结来说,大厂在技术与资本层面并没有明显的优势。我们为什么拥抱AI,因为AI是唯一的增长市场。2017年之前,大家不会考虑增量市场的问题,但之后客户应用在饱和,越来越多的云厂商冒出来,这时候大厂靠自己的品牌以及价格优势在公有云市场上来抢夺机会。现在大家忙的不是竞争,而是在AI时代如何为客户更好地服务,解决算力问题。

3.AI会成为未来营收主力

问:青云科技的半年报显示,今年上半年AI算力服务的收入有2000多万元。青云的算力产品与服务,未来可以带来多大的营收?有哪些期待?

林源:营收数字以公开的财报口径为准。但基本上有这样一个趋势:AI算力现在更多以训练为主,之后我们希望它进入推理阶段。训练的增速是可以期待的,2023年以GPU为主的算力云,就跟2013年以CPU为主的云一模一样。2013-2017这几年,所有云厂商都是100%的增长。

问:AI算力是一个很大的市场,但AI算力调度是否只是其中一小部分市场?

林源:我们看的是两块,第一块AI算力调度本身,这有点像原来传统交付模式的生意。第二块是AI算力云,它既有产品的部分,也有服务的部分。这一部分未来十年的市场空间更大,我觉得是10倍、100倍的增长,而青云科技至少会比上一阶段做到的规模更大。

问:青云现在的营收主力还是私有云,未来AI算力调度会成为营收的主力吗?

林源:我觉得它一定会成为主要的营收,但是它需要点时间。过去青云最早做数字化、做信创业务,尤其过去两年信创占私有云很大一部分,这不是青云决定的,而是市场决定的。之后所有的客户都会往AI迁移,不管是传统客户还是互联网客户,生意模式与运营模式都会由AI驱动。如果不做AI,真的会落后。所以,它一定会成为主营的业务。

问:在AI算力服务这一块,客户需求比较旺盛的主要集中在哪几个领域?

苗慧:主要就是训练。现在大模型作为技术基础,在上层面向不同的行业。只要能标准化的,都在大规模地做模型的训练,然后生产出自己的小模型。在理解人类意图的时候,意图模型也随之更新。所以,如果我要做一个行业,大概要训练3~5个小模型,为这个行业提供服务。

问:青云算力调度平台是一个标准化平台吗?在行业的应用上有没有差别?

林源:青云对算力调度平台的定位就是“产品”,产品就是标准化的。在济南超算这一客户中,会有客制化的部分,但那是他要做的事情,不是青云要做的事情。青云的定位始终是一家软件产品公司,而不是一家项目公司。

问:青云现阶段更希望吸引什么样的行业,或者什么样的行业有更大的意愿采用这一产品?

苗慧:青云AI算力调度平台主要服务于超算中心、区域算力中心、区域电信、区域的一些合作伙伴,我们共同建设起那朵云,共同运营。

第二是青云公有云的AI算力云,主要服务于大模型的开发商。因为大模型开发商也在面向客户提供一些像金融领域的模型、交通领域的模型,它需要大规模的机器进行训练,青云还是面向于这种模型提供商比较多。

第三是青云计划今年年底或者明年,大规模的推理就会上云,因为大规模的训练研发工作会有一个阶段性的成果,推理服务会是之后相对重点的工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7698

    浏览量

    137078
  • AI
    AI
    +关注

    关注

    87

    文章

    29665

    浏览量

    268001
  • 算力
    +关注

    关注

    1

    文章

    892

    浏览量

    14685
  • 大模型
    +关注

    关注

    2

    文章

    2258

    浏览量

    2334

原文标题:AI算力调度平台,大模型时代云计算的新生意|甲子光年

文章出处:【微信号:jazzyear,微信公众号:甲子光年】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI时代的重要性及现状:平衡发展与优化配置的挑战

    AI时代扮演着至关重要的角色。如果说数据是AI模型的“燃料”,那么
    的头像 发表于 11-04 11:45 210次阅读

    本源量子等向北京“金融量子实验平台”提供自主量子

    近日,由本源量子提供自主量子主的“金融量子实验平台”正式上线,该平台由北京金融科技产业联盟主办,本源量子公司联合共建,云端可提供量子真
    的头像 发表于 10-30 08:05 97次阅读
    本源量子等向北京“金融量子<b class='flag-5'>云</b>实验<b class='flag-5'>平台</b>”提供自主量子<b class='flag-5'>算</b><b class='flag-5'>力</b>

    【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

    算法的引擎GPU、GPU硬件架构剖析、GPU服务器的设计与实现、GPU集群的网络设计与实现、GPU板卡级调度技术、基于平台的GPU集群
    发表于 10-08 10:40

    科技报到:从计算AI模型巨头生态革命迈出关键一步

    ”,导致整个行业陷入到了“低水平内卷”的境地。 如今,在大模型的促进下,千行万业的智能化转型愈演愈烈,而力作为灵活高效、性价比极高的
    的头像 发表于 08-26 15:00 220次阅读
    科技<b class='flag-5'>云</b>报到:从<b class='flag-5'>云</b><b class='flag-5'>计算</b>到<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,<b class='flag-5'>云</b>巨头生态革命迈出关键一步

    模型时代需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型
    发表于 08-20 09:04

    名单公布!【书籍评测活动NO.41】大模型时代的基础架构:大模型中心建设指南

    工程技术人员,都可以参考和阅读本书。 作者介绍 方天戟腾讯专有与智平台shou席架构师,本科毕业于北京航空航天大学自动控制专业,硕士研究生毕业于中国科学院研究生院计算机科学与技术专
    发表于 08-16 18:33

    如何理解计算

    和硬件资源。 在数字化时代,互联网已经成为基础设施。计算使得数据中心能够像一台计算机一样去工作。通过互联网将
    发表于 08-16 17:02

    一图看懂星河AI数据中心网络,全面释放AI时代

    华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络,以网强,全面释放AI时代
    的头像 发表于 03-22 10:28 678次阅读
    一图看懂星河<b class='flag-5'>AI</b>数据中心网络,全面释放<b class='flag-5'>AI</b><b class='flag-5'>时代</b><b class='flag-5'>算</b><b class='flag-5'>力</b>

    时代, 如何打破内存墙

    设计的不断革新,进入了大时代。 目前,主流AI芯片的架构仍然沿用了传统的冯·诺依曼模型,这一设计将
    的头像 发表于 03-06 19:51 275次阅读
    大<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>时代</b>, 如何打破内存墙

    潞晨科技Colossal-AI + 浪潮信息AIStation,大模型开发效率提升10倍

    北京2024年2月29日 /美通社/ -- 近日,潞晨科技Colossal-AI模型开发工具与浪潮信息AIStation智能业务创新生平台完成兼容性互认证。基于AIStation
    的头像 发表于 03-01 09:43 436次阅读
    潞晨科技Colossal-<b class='flag-5'>AI</b> + 浪潮信息AIStation,大<b class='flag-5'>模型</b>开发效率提升10倍

    大升级 英特尔至强可扩展处理器持续技术创新

    过去半年中,随着大模型产品的爆发,AI带来的变革已经逐渐凸显。承载着AI的研究和应用,其格局变化尤为明显。 2023年,生成式
    的头像 发表于 12-29 14:32 362次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>大升级 英特尔至强可扩展处理器持续技术创新

    AGI时代的奠基石:Agent++大模型是构建AI未来的三驾马车吗?

    AI Agent的训练离不开,服务器作为一个强大的计算中心,为AI Agent提供
    的头像 发表于 12-21 13:34 1123次阅读
    AGI<b class='flag-5'>时代</b>的奠基石:Agent+<b class='flag-5'>算</b><b class='flag-5'>力</b>+大<b class='flag-5'>模型</b>是构建<b class='flag-5'>AI</b>未来的三驾马车吗?

    燧原科技与青云科技达成战略合作,创新异构调度

    ,AIGC内容生成类模型正在重构互联网商业模式,催生数字经济新突破。随着计算任务的多样化和复杂化,更为高效和灵活的异构计算是未来的发展方向。燧原的“燧智
    的头像 发表于 12-11 12:20 578次阅读

    GPT-4 Turbo 发布 | 大模型训练的新时代:超互联网的调度与调优

    对训练模型的重要性日益凸显。随着大模型训练的流行,全球显卡和正在快速增长。
    的头像 发表于 11-09 09:06 1449次阅读
    GPT-4 Turbo 发布 | 大<b class='flag-5'>模型</b>训练的新<b class='flag-5'>时代</b>:超<b class='flag-5'>算</b>互联网的<b class='flag-5'>调度</b>与调优

    PODsys:大模型AI平台部署的开源“神器”

    模型是通用人工智能的底座,但大模型训练对平台的依赖非常大。大模型
    的头像 发表于 11-08 09:17 827次阅读
    PODsys:大<b class='flag-5'>模型</b><b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>平台</b>部署的开源“神器”