0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力十问:超算智算,通算及算存比

智能计算芯世界 来源:C114通信网 2024-04-13 11:40 次阅读

算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。算力基础设施是新型信息基础设施的重要组成部分,呈现多元泛在、智能敏捷、安全可靠、绿色低碳等特征,对于助推产业转型升级、赋能科技创新进步、满足人民美好生活需要和实现社会高效能治理具有重要意义。

在第二届“华彩杯”算力大赛启动会上,中国工程院院士邬贺铨作了《算力十问》的主题演讲。

一问:如何准确衡量算力?

邬贺铨指出,现有测算方法难以精准衡量算力。国内企业服务器的出货量并不等于国内市场的使用量,而且进口国外的服务器未统计在内;服务器出货量也不等于上架量,更不等于已经加电使用量。通常服务器集群的算力不等于集群内服务器算力之和;通过问卷调研方法收集的数据也未必能全面反映目前实际使用情况。

二问:超算、通算、智算三类算力是否可以互相调剂?

超算和通算可否承担生成式大模型的训练和推理任务?智算适合承担目前超算和通算的任务吗?建设兼具三类节点能力的融合算力中心会有利于三类算力的调度吗?

三问:三类算力有无合理比例?

邬贺铨认为,不同地区需求不同,不可能有固定的比例。通常国家与区域创新中心城市对超算有较大需求;机密性和时延敏感性决定了城市政务数据和重要企业关键数据尽量在同城通算;东部地区的AI训练任务重、智算比例高;西部算力枢纽也需要增加智算能力,但一般西部地区以配置通算为主。

四问:何谓合适的算存比?

邬贺铨强调,存力与算力需配合,避免因存力短缺造成算力等待而影响处理效率。而存力按位于服务器内外分为内存与外存,对于CPU密集型计算任务,影响算力效率与性能的主要是内存,据分析合理的算存比是GFlops/GB为1;对I/O密集计算任务,需频繁访问外存,如何考虑计入外存力的算存比合理取值,值得商榷。邬贺铨同时指出,存力有HDD机械硬盘和SDD固态硬盘之分,后者可节能70%,但我国SDD仅占24.7%,不及美国一半。

五问:如何根据大模型参数量及训练数据量来设计算力需求?

AI模型参数是指深度神经网络各层神经元间连接矩阵的权重和偏置,模型输出值=权重×输入值+偏置。

算力规模(峰值Flops)≈8×训练数据(tokens Byte)×模型参数/训练时间(秒)×算力利用率(0.3~0.55)。

存力规模(Byte)≈10×模型参数×计算精度(Byte)。

理论上可以通过增加训练时长来降低对大模型训练算力的需求,但训练时长的增加意味算力芯片集群出错的次数增加,为应对出错所需存盘开销也增加,计算效率显著下降。据OpenAI的经验,模型大小和数据集大小及用于训练的算力规模三个因素同时放大才有最佳效果,据分析,当不受其他两个因素的制约时,大模型性能与单个因素都有幂律关系。

六问:如何利用边缘与终端的算力?

当边缘/终端具有70亿参数以上的推理能力时,边缘/终端可离线进行推理任务,目前手机可支持130亿参数,2024年还会出现支持千亿参数的手机。当边缘/终端仅具有10亿参数的推理能力时,需要与云端协同提供智能能力。邬贺铨提出,单终端算力小,数以亿计的终端算力集合就非常可观,但跨终端的协同计算是否可行值得商榷。

七问:异地算力节点的协同可行吗?

邬贺铨认为,将算力集群扩展到跨域,多个异地的算力节点共同承担一个计算任务,实时性的交互要求光传输系统无损和确定性时延,任何丢包和抖动都无法保证计算效率;在异属异构的场景下异地协同计算的实施可操作性更是挑战。他强调,集约化建设大型算力节点比分布异地协同能够显著提升能效和算力效率,东数西算和数据灾备都需要在异地算力枢纽间建立广域连接,但这仅是算力任务的转移而不是异地实时协同计算。

八问:算力的接入需要集中管理与指配吗?

不通过国家算力调度平台能够构建全国一体化算力网和算力大市场吗?或者可以由算力节点拥有方和需求方联合建立算力服务联盟,以市场机制来沟通供需。另外,在强调企业为主体发挥市场有效作用的前提下,还需要强化有为政府的角色,通过建立结对子等东西部联动机制强化区域间算力协同。

九问:算网协同做什么和如何做?

算力与网络往往属于不同的运营主体,跨运营商的协同调度也有管理难题。而且网络通常并不感知所承载的数据属性。当前,首先要厘清算网协同的标准与方法,发挥IPv6的分段选路、SRV6作为算网协同统一承载协议的作用,通过编程空间实现云网/算网的融通。

十问:如何解除中小企业使用算力的顾虑?

邬贺铨建议,政府站台主导建设面向中小企业的云智平台,降低企业利用算力的门槛和对安全的担心。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超算
    +关注

    关注

    1

    文章

    114

    浏览量

    9049
  • 算力
    +关注

    关注

    1

    文章

    925

    浏览量

    14732
  • 大模型
    +关注

    关注

    2

    文章

    2314

    浏览量

    2448

原文标题:算力十问:超算智算,通算及算存比

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基础篇:从零开始了解

    即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为。比
    的头像 发表于 11-15 14:22 249次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基础篇:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    企业AI租赁是什么

    企业AI租赁是指企业通过互联网向专业的提供商租用所需的计算资源,以满足其AI应用的需求。以下是对企业AI
    的头像 发表于 11-14 09:30 127次阅读

    GPU开发平台是什么

    随着AI技术的广泛应用,需求呈现出爆发式增长。AI租赁作为一种新兴的服务模式,正逐渐成为企业获取
    的头像 发表于 10-31 10:31 120次阅读

    大模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    中科曙光入选2024服务产业图谱及服务产品名录

    近日,中国信通院公布首个《服务产业图谱(2024年)》及《服务产品名录(2024年)》。曙光智构建的全国一体化
    的头像 发表于 08-06 14:23 604次阅读

    力系列基础篇——与计算机性能:解锁超能力的神秘力量!

    在《力系列基础篇——101:从零开始了解》中,相信各位粉丝初步了解到人工智能的“发动机”和核心驱动力:
    的头像 发表于 07-11 08:04 104次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>与计算机性能:解锁超能力的神秘力量!

    基础设施的风险与挑战

    编者按网络有一个美好的愿景,就是希望网,能像电力和电网一样:
    的头像 发表于 06-13 08:27 493次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基础设施的风险与挑战

    力系列基础篇——101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么?那必须是:
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    “捷智”正式入驻国家互联网平台

    ABSTRACT摘要2024年4月2日,本公司旗下服务品牌“捷智”正式入驻国家互联网平台,开设云gpu旗舰店。我们将借助国家
    的头像 发表于 04-12 08:26 484次阅读
    “捷智<b class='flag-5'>算</b>”正式入驻国家<b class='flag-5'>超</b><b class='flag-5'>算</b>互联网平台

    智能规模通用,大模型对智能提出高要求

    的缩写,即每秒所能够进行的浮点运算数目(每秒浮点运算量)。   可以分为通用、智能
    的头像 发表于 02-06 00:08 6070次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    网络面临三大挑战

    2024年,以AIGC为代表的人工智能技术将进一步激发需求,网络、智中心、
    的头像 发表于 01-12 10:39 1007次阅读

    一文读懂:什么是“”?

    的定义即计算能力(ComputingPower)。《中国白皮书(2022年)》将其定
    的头像 发表于 12-22 08:27 6780次阅读
    一文读懂:什么是“<b class='flag-5'>算</b><b class='flag-5'>力</b>”?

    平台赋能,共建,智贯东西 “2023 英特尔大会暨东数西大会”成功举办

    近日,以“共建,智贯东西”为主题的2023 英特尔大会暨东数西大会在丽江成功举办。大会由英特尔主办,齐聚
    的头像 发表于 12-08 19:15 782次阅读
    平台赋能,<b class='flag-5'>算</b><b class='flag-5'>力</b>共建,智贯东西 “2023 英特尔<b class='flag-5'>算</b><b class='flag-5'>力</b>大会暨东数西<b class='flag-5'>算</b>大会”成功举办

    浅谈为AI大而生的-体芯片

    大模型爆火之后,一体获得了更多的关注与机会,其原因之一是因为一体芯片的裸相比传统架构
    发表于 12-06 15:00 365次阅读
    浅谈为AI大<b class='flag-5'>算</b><b class='flag-5'>力</b>而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-体芯片