0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为给大模型穹顶,树一根存力支柱

脑极体 来源:脑极体 作者:脑极体 2023-07-15 09:31 次阅读

建一座殿堂之前,首先要立起足够支撑其屋顶重量的支柱。

段玉裁在《说文解字注》里说,“柱之言主,屋之主也”。也就是说,支柱是一座屋子最主要,最基础的东西。支柱不牢,再美好的雕梁画栋也会归为泡影。

在今天,我们正在以拳拳之心建设一座名为AI大模型的穹顶。预训练大模型通用性好、泛化性强的优势,让各个行业都看到了走向智能化的曙光,点燃了社会经济的炽热追寻。根据相关数据,几天之前在上海举办的世界人工智能大会上,就有超过30款中国AI大模型集中亮相。通观整个中国,更是来到了“百模大战”的盛况。根据科技部新一代人工智能发展研究中心等机构发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,并且在一些垂直领域实现了全球领先。

仰望大模型的穹顶固然重要。但此时更该去思考,这座穹顶的支柱是否坚实可靠,能撑起多大的重量?在传输、算力两大AI基础设施之外,存力对大模型发展的支撑意义,正在引发更多关注。

wKgZomSxXlSAEEuyAAPZLvxgbSc691.jpg

(华为数据存储产品线总裁 周跃峰)

7月14日,大模型时代华为AI存储新品发布会举办。期间,华为详尽展示了大模型带给存储底座的挑战,以及华为在技术、产品、生态上选择的应对之道。

华为数据存储产品线总裁周跃峰在“数据新范式,释放AI新动能”主题分享中表示:“大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。华为数据存储未来将持续创新,面向AI大模型时代提供多样化的方案与产品,携手伙伴共同推进AI赋能千行百业。”

当世界醉心于建设大模型的穹顶,存储产业需要先树起能够支撑智能世界的支柱。面对大模型时代,华为存储选择了自己的担当。

假想:缺乏存力支撑的大模型时代会怎样?

我们都知道,发展AI大模型还有很多层面的问题需要解决。比如可供训练的中文语料、数据集不足;大模型过于依赖人工调优,落地成本过大;对高端算力有依赖,算力资源稀缺等。

但在这些问题之外,我们必须正视这样一个现实:假设大模型缺乏适配的存储产品与存储资源,那么结果可能也不容乐观。在华为看来,在AI发展的不同领域与阶段,面临着数据存储方面的4大挑战。

首先是数据归集太慢。大模型有着庞大的数据规模,且需要用到大量的非结构化数据进行训练。这就导致AI训练需要从跨地域的多个数据源,进行大量的原始数据拷贝,如果这个过程过于复杂,效率过低,就会导致AI开发进度被搁置。尤其会严重限制那些本地数据规模庞大的行业落地大模型。

其次是数据预处理周期长。AI训练首先需要进行大量的数据预处理。尤其大模型数据规模庞大,数据预处理的工作量也随之递增。一个典型的百TB级大模型数据集,数据预处理工作经常要超过10天,占AI数据挖掘全流程的30%。如果没有针对性的存力帮助,随着模型的不断增大,数据预处理的工作量、工作时长以及消耗算力将持续增大,导致大模型的训练愈发艰难。

wKgaomSxXlWAbQOYAAPjLcnTYeM669.jpg

然后是数据集加载慢,训练易中断。大模型的训练参数、训练数据集规模特别庞大,这就导致多种状况都会影响到数据集的加载,从而导致模型训练的中断甚至重来。尤其在训练复杂的模型结构时,数据加载不顺畅,易出错会导致巨大的工作开销增加。

比如根据相关数据,OpenAI 在 GPT-4 的训练使用了约 25000 个 A100 GPU的算力,进行了90到100天的训练。其模型 flops 利用率仅有32%到36%。大量故障导致重新启动检查点,就是其算力利用率低的主要原因。如果不能解决这个问题,大模型不断发展就意味着无尽的算力资源与人力资源将消耗在数据故障当中,让大模型的应用成本难以承受。

此外还有一个挑战,是模型的推理实时性和精准度低。大模型在推理部署时,需要将最新的数据随时联接进来,而目前主流方法训练时间长且成本高。如果不能克服这个挑战,将让大模型的推理部署效果大打折扣,从而影响智能化的最终落地效果。

由此可见,大模型时代各家不仅需要比算法,比算力,比数据,更需要比存力。具体而言,就是比拼存储资源,比拼存储体系应对大模型需求的准确性,比拼在数据侧提升大模型训练推理效果的软硬件适配。如果缺少存力这根支柱,就像缺少AI算力、缺少数据、缺少落地场景一样,大模型时代是根本是不成立的。

建立:针对AI大模型的存储支柱

好在,针对这样的现实,存储产业已经行动了起来。比如面对大模型时代的AI存储,就可以提供4大能力:针对数据归集难题,华为可以通过数据编织能力,实现跨系统、跨地域、跨云的全局统一数据视图和调度;针对数据预处理周期长的问题,华为打造了近存计算能力,让数据在存储完成数据准备,更好释放AI算力资源;针对训练易中断等问题,华为通过预处理加速、AI训练/推理加速等技术,实现训练过程0等待 。

把这些长期建设的技术能力与针对性解题思路聚合在一起,最终形成能够应对大模型存力挑战,适配大模型的开发与部署需求的产品与解决方案——这就是华为存储为大模型穹顶,建立存储支柱的方式。

这些技术能力,最终凝结成了本次发布的两款产品:面向AI全流程,提供领先性能的OceanStor A310深度学习数据湖存储,以及能够大幅降低AI使用门槛的FusionCube A3000训/推超融合一体机。

面向数据量不断扩张,模型日新月异的AI大模型,高性能、有针对性的数据存储底座是发展的必要条件,OceanStor A310深度学习数据湖存储就为此而生。其具备超高可扩展性,混合负载高性能,多协议无损融合互通,能够实现数据归集、预处理、训练、推理的AI全流程海量数据管理。

wKgZomSxXlWAcIrwAAOgIgEk5N8893.jpg

面对AI计算与HPC合流的产业趋势,OceanStor A310可以提供面向AI、HPC、大数据场景的同源数据分析能力,最大支持4096节点扩展,单框5U支持业界最高的400GB/s带宽以及1200万IOPS的最高性能,支持多协议无损融合互通,实现数据的0拷贝,全流程效率提升60%。OceanStor A310存储通过近存计算,可以实现训练数据的预处理,预处理效率提升30%。利用全局文件系统GFS,接入分散在各地域的原始数据,简化数据归集流程,从而将华为应对AI大模型的存储能力集中释放,一次性接触AI开发全流程的数据难题与存力挑战。

未来,AI将融入千行百业,重塑千行百业。这也就导致能够适配更多行业场景、应用场景的超融合一体机将成为产业智能化进程中的刚需。

wKgaomSxXlWAS4QeAAKYoszVv40285.jpg

为此,华为推出了FusionCube A3000训/推超融合一体机,面向行业大模型训练/推理场景,针对百亿级模型应用,集成了OceanStor A300高性能存储节点、训/推节点、交换设备、AI平台软件与管理运维软件,为大模型伙伴提供拎包入住式的部署体验,实现一站式交付,做到开箱即用,2小时内即可完成部署,可以说是打通了大模型落地的最后一公里。

训/推节点与存储节点均可独立水平扩展,以匹配不同规模的模型需求。同时FusionCube A3000通过高性能容器实现多个模型训练推理任务共享GPU,将资源利用率从40%提升到70%以上。

在这两款产品的加持下,无论是探索智能化天花板的大模型开发训练,还是实现智能化落地的场景化部署,AI大模型都将得到有力的存力支持。

存力支柱,就这样树立在AI大模型时代的穹顶下。

未来:存储支柱向上生长,AI穹顶指向天宇

面向纵深性、长期化的AI大模型发展,存储产业如何提供持续的支持与帮助?对于这个问题,华为在发布会当中也给出了自己的答案。在华为看来,大模型爆发并不应该仅仅成为存储产业的短期机遇。长期来看,AI与存储应该彼此促进,互为助力,形成长期积极发展的良性局面。

为此,华为首先将积极投入未来,持续在AI数据存储方面进行研究和准备。发布会现场,周跃峰与华为天才少年张霁进行了对话,讨论了华为在数据归集、数据训练、数据推理等方面如何提升存储能力,帮助AI开发与落地做到更好。

比如说,面向跨地域归集的数据安全流转难题,华为正在研究被称为“数据方舱”的技术。这项技术使得数据及其访问权限、凭证信息实现全封装,从而确保在流转过程中数据处于安全、可靠的环境当中。

这类对于未来AI技术发展趋势的预判与研发投入,将成为华为在AI存储领域持续打开产业空间的钥匙,也将成为推动存储产业迎接AI时代机遇的新动力。

另一方面,想要适配AI大模型带来的产业发展空间,存储产业必须依靠合作,建设生态,从而才能够向用户提供综合性、行业性的解决方案。

在生态化发展的驱动下,用户开发大模型、应用大模型过程中多样性、复杂性的软硬件需求将得到持续满足,从而确保模型开发、落地畅通无阻。

整体而言,华为存储既为火爆的AI大模型,提供了即刻能够解决问题、实现资源满足的存储解决方案,也着眼未来发展,在存储技术、生态上进行不断的革新、生长。AI大模型与存储底座,就像是穹顶与支柱的关系,支柱越来越高,穹顶的高度也自然提升,智能化的极限才能不断被打破。

为了能够建好AI大模型的穹顶,华为存储带来了三方面的价值,真正实现了以存储为支柱的产业担当。

首先,面对数据归集、数据训练中断等一系列真实存在AI训练部署难题,华为存储以更好的技术带来了解题思路,提供了应对策略,从而在存储与AI两个技术领域间架起了桥梁,达成了供需之间的沟通。

其次,华为面向大模型训练与落地,都提供了资源更加充沛、利用更加合理的存储底座。这将有助于优化大模型的综合成本,提升各行业利用大模型,适配大模型的可能性。

再次,华为在存储领域推动的开放合作方案,可以推动存储生态与AI生态相互促进。让更多软硬件企业加入到AI大模型的机遇中,分享智能时代红利,从而全面促进存储产业的发展与进化。

向下扎到根,向上捅破天的AI存储支柱,在这些价值的凝聚下逐渐成型。

用好这根支柱,可以支撑AI大模型发展,提升大模型从训练到推理的全流程效率。

发展这根支柱,可以助力千行百业的智能化落地,打造出智能时代新的基础设施。

站在这根支柱上,我们能够看到第四次工业革命的晨光破晓。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    215

    文章

    34292

    浏览量

    251140
  • 存储
    +关注

    关注

    13

    文章

    4257

    浏览量

    85646
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268337
  • 算力
    +关注

    关注

    1

    文章

    925

    浏览量

    14732
  • 大模型
    +关注

    关注

    2

    文章

    2314

    浏览量

    2452
  • 存力
    +关注

    关注

    0

    文章

    23

    浏览量

    77
收藏 人收藏

    评论

    相关推荐

    一根光纤可以分两路吗

    一根光纤是可以通过分光器分两路使用的。以下是对这问题的详细解答: 、分光器的作用 分光器是种光学器件,它可以将光信号按照定的比例分成
    的头像 发表于 10-28 10:24 593次阅读

    松柏傲霜时:保利发展加速转型,华为带来技术支柱

    华为全屋智能,立一根房地产企稳的“技术”支柱
    的头像 发表于 10-19 22:46 1270次阅读
    松柏傲霜时:保利发展加速转型,<b class='flag-5'>华为</b>带来技术<b class='flag-5'>支柱</b>

    什么是默克尔(Merkle Tree)?如何计算默克尔?

    01 默克尔的概念 默克尔(Merkle Tree)是种特殊的二叉,它的每个节点都存储了个数据块的哈希值。哈希值是
    的头像 发表于 09-30 18:22 584次阅读
    什么是默克尔<b class='flag-5'>树</b>(Merkle Tree)?如何计算默克尔<b class='flag-5'>根</b>?

    精准学:用一根垂直大模型支柱,撑起教育普惠的未来

    AI一对一教学,怎样才能飞入寻常百姓家?
    的头像 发表于 09-09 17:52 1947次阅读
    精准学:用<b class='flag-5'>一根</b>垂直大<b class='flag-5'>模型</b><b class='flag-5'>支柱</b>,撑起教育普惠的未来

    模型时代的算需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的算,以及相关的稳定性和性能,是个极为重要的问题,带着这个极为重要的问
    发表于 08-20 09:04

    一根光纤有多少芯

    一根光纤的芯数并不是固定的,它可以根据不同的应用需求和设计要求而有所不同。光纤的芯数指的是光纤内部所含的玻璃纤维的数量,常见的光纤芯数包括1芯、2芯、6芯、8芯、12芯、24芯、48芯、96芯等
    的头像 发表于 08-06 09:35 2140次阅读

    一根光纤解决全屋用网!手搓了个8口全千兆交换机!

    8口千兆交换机,可一根光纤,解决全屋用网?!前言事情是这样的。我在年前左右,家里爆改了下,安排智能家居的时候,发现家里网口不够用了……于是就“顺手”做了
    的头像 发表于 05-25 08:05 259次阅读
    <b class='flag-5'>一根</b>光纤解决全屋用网!手搓了个8口全千兆交换机!

    内计算WTM2101编译工具链 资料

    内计算是突破物理极限的下代算技术- AIGC等人工智能新兴产业的快速发展离不开算,算的基础是人工智能芯片。 当前CPU/GPU在
    发表于 05-16 16:33

    SPI一根时钟线一根单向数据线可以实现读写从机数据吗?

    我们已知的可以把SPI 和 USART 连接实现全双工通信, SPI在单工模式里面有介绍一根时钟线和一根单向数据线/一根时钟线和一根双线数据线两种模式,不知道大家注意到了没有:I2C也
    发表于 05-06 06:04

    一根电线是如何让机车运行的?

    不知你注意没有,高铁的用电都是用一根电线,并不是和家庭用的电样是两电线。
    的头像 发表于 12-29 10:29 733次阅读
    <b class='flag-5'>一根</b>电线是如何让机车运行的?

    AI大步向前,先进加速度追赶

    赛迪最新发布的《中国先进发展研究报告》(下称“报告”)指出,目前中国发展存在定“被忽视”现象,预计到2025年,将有超过420EB
    的头像 发表于 12-25 16:25 503次阅读

    为何一根零线可以供三火线共用呢?

    为何一根零线可以供三火线共用呢? 一根零线可以供三火线共用的原因可以从电力传输、安全性和经济性等方面来解释。 首先,电力传输方面,零线和火线在电路中承担着不同的功能。火线是带电的电
    的头像 发表于 12-12 14:15 1442次阅读

    HDMI网线传输器是如何用一根网线传输HDMI信号到100米远的?

    HDMI网线传输器是如何用一根网线传输HDMI信号到100米远的? HDMI(高清晰度多媒体接口)是种用于音频和视频传输的接口标准。它是种数字接口,可以传输高质量的音频和视频信号,广泛应用
    的头像 发表于 12-07 09:07 3134次阅读

    浅谈为AI大算而生的算-体芯片

    模型爆火之后,体获得了更多的关注与机会,其原因之是因为体芯片的裸算
    发表于 12-06 15:00 365次阅读
    浅谈为AI大算<b class='flag-5'>力</b>而生的<b class='flag-5'>存</b>算-体芯片

    与二叉的定义

    表示。型结构在计算机领域中也得到了广泛应用。 Part1 1.1 的定义 (Tree) 是n(n>=0)n(n>=0) n ( n >=0)个结点的有限集,在任意
    的头像 发表于 11-24 15:57 1270次阅读
    <b class='flag-5'>树</b>与二叉<b class='flag-5'>树</b>的定义