0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

发展大模型,是否解决算力问题就够了?

半导体产业纵横 来源:半导体产业纵横 2023-08-21 16:03 次阅读

随着大模型概念火热,算力成为各行各业关注的热门话题英伟达显卡被抢爆,媒体关注“大模型时代到来,算力够不够”,行业想要解决AIGC时代的算力瓶颈问题。然而,发展大模型,是否解决算力问题就够了?

01 算力是大模型的底座

大模型是在智能算力驱动下最为典型的重大创新。得益于模型泛化能力强、长尾数据的低依赖性、以及下游模型使用效率的提升,大模型被认为具备了“通用智能”的雏形,并成为业内探索实现普惠人工智能的重要途径之一。从算力的视角看,语言类、视觉类模型容量和相应的算力需求都在快速扩大,大模型发展的背后是庞大的算力支撑。作为算法的结晶,需要处理大量的数据。人工智能背后需要大量的硬件支撑,已经成了新时代的“重工业产品

算力决定了数据处理能力的强弱。算力芯片是算力的具体载体,高算力芯片能够提供超算算力、通用算力、智能算力和边缘算力。搭载率最高的GPU芯片多用于图形图像处理、复杂的数学计算等场景,可较好支持高度并行的工作负载,经常用于数据中心的模型训练,或用于边缘侧和端侧的推理工作负载。

服务器是算力的基础设施之一。服务器的逻辑架构和普通计算机类似,但是由于需要提供高性能计算,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。人工智能服务器由于具备图形渲染和海量数据的并行运算等优势,能够快速准确地处理大量数据,市场价值逐渐凸显。

随着数据应用的搭载率较低的NPU芯片,设计逻辑则更为简单,常用于边侧和端侧的模型推理,并生成结果,在处理推理工作负载时,具有显著的能耗节约优势。根据IDC统计,2021年中国仍以GPU为主实现数据中心计算加速,市场占有率近90%,ASICFPGA、NPU等非GPU芯片市场占有率超过10%。据IDC预计,到2025年人工智能芯片市场规模或将达726亿美元。

IDC数据显示,2021年全球人工智能服务器市场的同比增速超过全球整体人工智能市场的增速,是整体人工智能市场增长的推动力。IDC发布的《全球人工智能市场半年度追踪报告》显示,2021年全球人工智能服务器市场规模达156.3亿美元,约合人民币1,045亿元,这是全球年度人工智能服务器市场首次突破千亿元人民币,同比2020年增速达39.1%。

这样的背景下,国内算力芯片公司“快马扬鞭”。例如,龙芯中科计划明年下半年将完成兼顾显卡和算力加速功能的专用芯片流片;龙芯GPU的定位主要是为了与CPU形成自我配套,形成系统优势,降低系统成本。

02 国产存力需要重视

数据存力指的是以存储容量为核心,包含性能表现、安全可靠、绿色低碳在内的综合能力。

在国家数字经济大战略下,数据作为生产要素,已成为重要的资产。随着海量数据呈指数级增长,数据流动加速,存储作为承载数据的关键设施,其重要性更加凸显。作为数据大国,数据存储产业就需要跟上。大模型正在带动各地建设AI算力中心,但是产业主要关心的都是运算力。倪光南院士认为算力中心的计算能力由三个因素决定:存力、算力、运力。倪光南院士认为,用广义算力去定义一个算力中心,才更准确。如果去计算存算比的话,美国的算力中心存算比为1.11TB/GFlops,中国约为美国的37.8%。

我国数据存力发展总体水平与发达国家相比仍有一定差距。据罗兰公司测算,美国单位GDP存储容量高于我国,我国存储在经济发展中的支撑作用有待加强。据中国信通院统计,2021年我国存储总量容量已达800EB,出货量年均增长速度已达50%。

为了发展国产算力,在技术方面,需要加快部署下一代存储技术,推动存储核心技术底层研发和技术攻关,提升存储介质、安全设计、数据防护等关键技术水平,打造全球存储的创新高地。存储领域正在发生一场新的技术变革,即基于半导体技术的新型产品替代基于机械技术的传统产品,这一个正在加速进行的客观趋势。SSD可以实现用先进的压缩算法,把数据更好地压缩,可以去重,可以更好的加密解密,用新的文件系统等等。

在标准方面,应尽快研究建立存储的行业规范和标准,完善数据存储效率、数据保护、数据灾备、绿色低碳等数据存力关键标准体系。存储相关企业及研究机构进行标准和评估体系研究,鼓励行业龙头企业通过硬件开放、软件开源、使能生态伙伴等策略,给予合作伙伴尤其是创新型小微企业充分的发展空间,共同摸索形成存储行业标准;另一方面,推进数据存储产业国际交流与合作,加强与国际标准组织的合作,加速我国技术标准的国际化进程,积极参与数据存储国际规则和技术标准制定。

在人才培养方面,存力市场有必要进一步完善数据产业人才培养机制,建立多层次、多元化的人才培养系统,鼓励培养专业理论与行业知识兼备的复合型人才,鼓励地方政府引导企业完善人才激励机制,引进和留住高端存储专业人才,优化人才的地域和行业布局。存力产业,包括数据存储,数据管理技术。目前国内对存储的概念还停留在一个小的部件,没有把它上升到一个产业的高度。

有强大先进的数据存储产业作为支撑,才能有发展算力主动权。

03 国产运力,沉默的搬运工

如果说存力已经开始逐渐受到重视,那么国产运力相对来说可能还是一个“小透明”。但对于大模型训练来说,“运力”已经成为关键因素。英特尔公司高级副总裁兼网络与边缘事业部总经理Sachin Katti表示,在云端训练大模型,单个服务器已无法承载,对网络需求的高要求前所未有,“我们训练一个大模型就需要5万-20万台服务器,需要通过网络来把这些服务器连接起来然后进行训练,这个量是非常大的。”

数字世界的运力,指的是数据传输流转的能力,由带宽、时延、安全可靠等要素组成。面对强劲的算力需求,英伟达推出了云算力平台,企业可以租用算力,谷歌、微软AZURE等云算力平台会为其提供算力支持。而与租用的服务器的链接也会成为影响企业模型训练的因素。

各类智能化应用的普及,导致大量视频数据、科研数据需要流动、调度、分析处理,带来的网络压力和运力负担也越来越大。

中国移动通信研究院发布的《面向AI大模型的智算中心网络演进白皮书》测算,以1750亿参数规模的GPT-3模型训练为例,从理论估算模型分析,当动态时延从10us提升至1000us时,GPU有效计算时间占比将降低接近10%;当网络丢包率为千分之一时,GPU有效计算时间占比将下降13%;当网络丢包率达到1%时,GPU有效计算时间占比将低于5%。“如何降低计算通信时延、提升网络吞吐是AI大模型智算中心能够充分释放算力的核心问题。”

对于大模型来说,在训练大模型时,模型参数存储于加速器(如GPU显卡)的片外缓存中,随着训练进程对模型参数进行不断更新迭代。在训练过程中,不同加速器之间需要进行频繁且大量的数据交换,在数据交换完成之后,才能够去算下一步的训练结果。从这个角度来说,好“运”,才能好“算”。在这一点上,英特尔除了提供CPU、独立显卡等芯片,满足人工智能模型训练、推理对算力的要求外,也提供了针对网络的IPU(Infrastructure Processing Unit)产品。

从这一角度来看,在AI芯片赛道已经有巨头把控且新玩家层出不穷的情况下,布局运力系统或许是另一片蓝海。更重要的是,从宏观角度来看,运力是将算力和存力高效传输给终端用户,它在基础设施中起到非常重要的作用。以被熟知的“东数西算”工程为例,它还包含西数西算、南数南算、东数西存等,而实现这些规划的前提是要有强有力的运力做支撑。运力网络要让用户在调用成百上千公里以外的计算资源时的体验与调用隔壁工作站的资源没什么区别。对于一个城市的大数据中心,就需要实现城市乃至国家层面综合调度的能力。

在“三力”基础上打造智慧管控能力,实现高效调度,才有希望实现算力一体化服务。不久前,成都最新发布政策,指出将围绕“算力”“存力”“运力”等关键领域,大力发展芯片、服务器整机、液冷设备等高端硬件。显然,行业已经意识到,对于发展大模型,全面发展不能仅堆算力芯片。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7242

    浏览量

    162599
  • 加速器
    +关注

    关注

    2

    文章

    771

    浏览量

    36803
  • 数据存储
    +关注

    关注

    5

    文章

    928

    浏览量

    50692
  • 人工智能
    +关注

    关注

    1783

    文章

    45233

    浏览量

    232576
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5712

原文标题:发展国产大模型,不能只堆算力

文章出处:【微信号:ICViews,微信公众号:半导体产业纵横】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是波特五模型,如何应用

    波特五模型(Porter's Five Forces Model)是迈克尔·波特(Michael E. Porter)于1979年提出的,用于分析行业竞争状况和企业竞争战略的一种理论模型。波特五
    的头像 发表于 07-05 14:36 72次阅读

    简述使用波特五模型的三个步骤

    波特五模型(Porter's Five Forces Model)是迈克尔·波特(Michael E. Porter)于1979年提出的一个分析行业竞争态势的框架。它通过分析五个方面的力量,帮助
    的头像 发表于 07-05 14:34 73次阅读

    【大规模语言模型:从理论到实践】- 阅读体验

    再次感谢电子发烧友提供的书籍试读机会。今天来分享下我在学习大模型训练中 注意机制 的心得体会。 虽然注意机制可以显著提高模型处理长序列数据的能力,但这也带来了计算成本的增加。在大型
    发表于 06-07 14:44

    【大语言模型:原理与工程实践】大语言模型的应用

    的创造进行结合,从而创造出更加丰富多样的内容。随着技术的不断发展,自动提示生成技术有望逐渐成熟。这将使大语言模型变得更加自主,能够自行构建和改进提示词以达到理想的结果。这将极大地提高大语言
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    的进步,大语言模型的应用范围和影响将持续扩大,成为AI领域的重要推动力。其中,GPT系列模型发展尤为引人注目,从GPT到GPT-2,再到如今的GPT-4,其创新速度和影响
    发表于 05-04 23:55

    模型时代,嫘祖也掌握了「新质生产」!

    当嫘祖也开始用大模型掌握新质生产……
    的头像 发表于 04-16 17:52 314次阅读
    大<b class='flag-5'>模型</b>时代,嫘祖也掌握了「新质生产<b class='flag-5'>力</b>」!

    数据语料库、算法框架和算芯片在AI大模型中的作用和影响

    数据语料库、算法框架和算芯片的确是影响AI大模型发展的三大重要因素。
    的头像 发表于 03-01 09:42 490次阅读

    PODsys:大模型AI算平台部署的开源“神器”

    模型是通用人工智能的底座,但大模型训练对算平台的依赖非常大。大模型平台是指支撑大模型训练
    的头像 发表于 11-08 09:17 569次阅读
    PODsys:大<b class='flag-5'>模型</b>AI算<b class='flag-5'>力</b>平台部署的开源“神器”

    请问模型编译中是否支持模型的在线编译?

    模型编译中是否支持模型的在线编译?
    发表于 09-18 07:24

    K210是否可以将模型分层实现?

    请问各位 是否可以将模型分层实现,实现的思路大概如何。是先训练好模型,分层转换为kmodel,依次实现各层kmodel,还是导出整体kmodel后,可以获得各层输出。
    发表于 09-15 06:17

    国产GPU打造强大算底座,天数智芯助力大模型创新发展

    模型落地实践》的主题演讲,深入介绍了天数智芯通用GPU产品以及自主算解决方案,为大模型创新发展打造坚实算底座。 天数智芯副总裁郭为 郭
    的头像 发表于 09-07 17:15 763次阅读
    国产GPU打造强大算<b class='flag-5'>力</b>底座,天数智芯助力大<b class='flag-5'>模型</b>创新<b class='flag-5'>发展</b>

    浪潮信息发布大模型智算软件栈OGAI,为大模型创新打造高效生产

    浪潮信息正式发布大模型智算软件栈 OGAI。OGAI (Open GenAI Infra)"元脑生智",是为大模型业务提供AI算力系统环境部署、算调度保障及模型开发管理能力的全
    的头像 发表于 08-28 08:08 459次阅读

    质疑大模型,理解大模型,用上大模型

    此时,为了深入探究大模型与物联网行业是否存在关联?大模型是否将创新IoT产品或改善企业流程?物联传媒记者特别采访了中科创达物联网事业群副总裁杨新辉先生,基于中科创达近来在大
    的头像 发表于 08-23 14:53 754次阅读
    质疑大<b class='flag-5'>模型</b>,理解大<b class='flag-5'>模型</b>,用上大<b class='flag-5'>模型</b>

    模型AI算剧增,谁来扛国产GPU大旗?

    众所周知,人工智能(尤其是大模型新兴应用领域)对AI算需求超过了通用CPU的摩尔定律的发展速度,而异构计算的性能增长恰恰能够满足这些新兴领域的算需求
    的头像 发表于 08-15 16:51 1399次阅读
    大<b class='flag-5'>模型</b>AI算<b class='flag-5'>力</b>剧增,谁来扛国产GPU大旗?

    夯实算基础 赋能大模型创新发展

    《 国产 GPU的大模型实践 》 的主题演讲 , 全面介绍了天数智芯 通用 GPU产品特色 以及 在大模型上的 应用 情况 。 天数智芯副总裁郭为 郭为指出,算关乎大模型产品的成败
    的头像 发表于 07-17 22:25 464次阅读
    夯实算<b class='flag-5'>力</b>基础  赋能大<b class='flag-5'>模型</b>创新<b class='flag-5'>发展</b>