浪潮信息Owen ZHU：大模型百花齐放，算力效率决定速度-电子发烧友网

北京2023年8月31日/美通社/ -- 与狭义的人工智能相比，通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型，能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力。2023年，随着 LLM 大规模语言模型技术的不断突破，大模型为探索更高阶的通用人工智能带来了新的曙光。通用人工智能进入了快速发展期，在中国，大模型已经呈现出百花齐放的态势，各种大模型层出不穷。

要想在"百模争秀"的时代占得先机，AI开发团队需要着力化解算力、算法、数据层面的巨大挑战，而开发效率和训练速度是保障大模型市场竞争力的核心关键因素，也是未来的核心发力点。近日，浪潮信息人工智能与高性能应用软件部 AI 架构师Owen ZHU参与首届由CSDN、《新程序员》联合主办的NPCon大会，发表重要技术演讲，分享面向新一轮AIGC产业革命，AI大模型的算力系统解决之道，并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。

以下为Owen ZHU在NPCon大会的演讲实录整理：

"百模争秀"时代的算力瓶颈

大模型研发的核心技术是由预训练与Alignment组成的，第一部分就是预训练，需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是Alignment，Alignment不完全等于强化学习，其通过使用多种方式/策略优化模型输出，让AI在和人的交流反馈中学会如何沟通表达，这两部分是提升大模型质量的核心要素。

目前来看，模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大，模型泛化能力越强。由于资源限制，在两者不可兼得的时候，应该如何进行取舍呢？OpenAI的研究结论认为，与增加数据量相比，先增大模型参数量受益则会更好，用一千亿的模型训练两千亿的Token和两千亿模型训练一千亿的Token，后者的模型性能会更高。

由此可见，参数量是衡量模型能力的一个重要指标，当模型参数量增长超过一定阈值时，模型能力表现出跃迁式的提升，表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升，这也就是我们所说的模型的涌现能力。

模型规模多大能产生涌现能力呢？现在来看，百亿参数是模型具备涌现能力的门槛，千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争，因为现有大模型并没有得到充分训练，如GPT-3的每个参数基本上只训练了1-2个Token，DeepMind的研究表明，如果把一个大模型训练充分，需要把每个参数量训练20个Token。所以，当前的很多千亿规模的大模型还需要用多10倍的数据进行训练，模型性能才能达到比较好的水平。

无论是提高模型参数量还是提升数据规模，算力依旧是大模型能力提升的核心驱动力：需要用"足够大"的算力，去支撑起"足够精准"模型泛化能力。当前大模型训练的算力当量还在进一步增大，从GPT-3到GPT-4算力当量增长了68倍。算力当量越大，交叉熵越小，模型能力越强。随着训练的token数、模型参数、计算量的增加，语言模型的loss在平滑下降，这就意味着大语言模型的精度可以随着计算量、参数规模、token数扩展进一步提升。

欲炼大模型，先利其器

大模型能力来源于大量工程实践经验，预训练的工程挑战巨大，这表现在如下几个方面：首先，AI大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等也都提出了较高的需求，万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题；其次，大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题；再次，工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。

作为最早布局大模型的企业之一，浪潮信息在业界率先推出了中文AI巨量模型"源1.0"，参数规模高达2457亿。千亿参数规模的大模型创新实践，使得浪潮信息在大模型领域积累了实战技术经验并拥有专业的研发团队，为业界提供AI算力系统参考设计。在算力效率层面，针对大模型训练中存在计算模式复杂，算力集群性能较低的情况，源1.0在大规模分布式训练中采用了张量并行、流水线并行和数据并行的三维并行策略，训练耗时约15天，共计训练了180 billion token，并将模型最后的loss值收敛至1.73，显著低于GPT-3等业界其他语言模型。首次提出面向效率和精度优化的大模型结构协同设计方法，围绕深度学习框架、训练集群IO、通信开展了深入优化，在仅采用2x200G互联的情况下，源1.0的算力效率达到45%，算力效率世界领先。在集群高速互联层面，基于原生RDMA实现整个集群的全线速组网，并对网络拓扑进行优化，可以有效消除混合计算的计算瓶颈，确保集群在大模型训练时始终处于最佳状态。

为大模型良好生态发展寻找最优解

当前，中国和业界先进水平大模型的算力差距依然较大，从算力当量来看，GPT-4的算力当量已经达到了248,842PD，而国内大多数主流的大模型算力大量仅为数千PD，差距高达近百倍。

同时，中国和业界先进水平大模型在算法、数据方面也存在巨大差距。在算法方面，虽然开源为国内大模型发展带来了弯道超车的良机，但LLaMA等开源大模型相比GPT4等顶级水平自研模型的性能，开源模型的能力存在"天花板"。

在数据方面，中文数据集和英文数据集相比较，在规模、质量上均存在显著差距，相较于动辄数千亿单词量级的英文数据，中文大模型的数据量级仅为百亿左右，而且开源程度较低，封闭程度较高。

开发大模型、发展通用人工智能是一项非常复杂的系统工程,我们亟需从系统层面为未来大模型的良好生态发展寻找最优解。从实战中走来，通过构建高效稳定的智算系统，加速模型开发效率提升。

日前，浪潮信息大模型智算软件栈OGAI（Open GenAI Infra）——"元脑生智"已正式发布。浪潮信息正通过"工具化、系统化、全链条"的全栈赋能能力，让炼大模型省时、省力，让大模型更快、更稳、更智能，助力百模真正实现"竞速AIGC"。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30763

浏览量
268917
人工智能

人工智能

+关注

关注
1791

文章
47208

浏览量
238303
大模型

大模型

+关注

关注
2

文章
2427

浏览量
2651

浪潮信息源2.0大模型与百度PaddleNLP全面适配

近日，浪潮信息宣布其开源大模型源2.0已全面适配百度PaddleNLP。这一举措标志着大模型开发生态正加速进化，为用户提供了更加便捷、高效的大模型

发表于 10-17 18:15 •514次阅读

浪潮信息：元脑企智EPAI助力金融大模型快速落地

将浪潮信息在AI算力底座建设、大模型开发领域积累的成熟、成功经验工具化，助力金融机构又快、又稳地部署生成式AI应用，助力金融数智化跨越式发展。

发表于 09-20 16:07 •344次阅读

商汤科技发布《采用AI编程助手，发展新质生产力》白皮书

大模型应用百花齐放，AI编程助手作为新质生产力工具为企业和开发者带来哪些价值？

发表于 09-02 09:25 •603次阅读

浪潮信息与能投天府云合作打造42kW智算风冷算力仓

在数字化转型浪潮的推动下，算力作为新型生产力，正以前所未有的速度重塑着各行各业的发展格局。近日，四川省天府云数据科技有限责任公司（以下简称“能投天府云”）携手

发表于 07-17 15:23 •619次阅读

浪潮信息携手天府云数据科技推出了42kW智算风冷算力仓

在当今数字化转型的浪潮中，算力作为推动数字经济高质量发展的核心引擎，正以前所未有的速度进化。近日，浪潮信息与四川省天府云数据科技有限责任公司携手，在国内率先推出了42kW智

发表于 07-15 16:18 •657次阅读

浪潮信息携全栈智算产品和方案亮相WAIC 2024

7月4日，2024世界人工智能大会（WAIC2024）在上海开幕。大会聚焦大模型、算力、机器人、自动驾驶等重点领域，吸引众多国内外知名人工智能企业参会。作为全球领先的IT基础设施供应商，浪潮信

发表于 07-05 18:04 •1475次阅读

浪潮信息发布源2.0-M32开源大模型，模算效率大幅提升

5月28日，浪潮信息发布“源2.0-M32”开源大模型。“源2.0-M32”在基于”源2.0”系列大模型已有工作基础上，创新性地提出和采用了“基于注意力机制的门控网络”技术

发表于 05-29 09:34 •423次阅读

浪潮信息发布“源2.0-M32”开源大模型

浪潮信息近日推出了革命性的“源2.0-M32”开源大模型。该模型在源2.0系列基础上，引入了“基于注意力机制的门控网络”技术，构建了一个包含32个专家的混合专家

发表于 05-29 09:08 •647次阅读

浪潮信息发布企业大模型开发平台"元脑企智"EPAI，加速AI创新落地

北京2024年4月18日 /美通社/ -- 4月17日，在2024浪潮信息生态伙伴大会（IPF2024）上，浪潮信息发布企业大模型开发平台"元脑企智"EPAI（Enterprise Platform

发表于 04-18 21:21 •466次阅读

浪潮信息发布企业大模型开发平台“元脑企智”EPAI

4月17日，在2024浪潮信息生态伙伴大会（IPF2024）上，浪潮信息重磅发布企业大模型开发平台“元脑企智”EPAI（Enterprise Platform of AI），为企业AI大模型

发表于 04-18 10:12 •384次阅读

浪潮信息"源2.0"大模型YuanChat支持英特尔最新商用AI PC

北京2024年3月27日 /美通社/ -- 3月26日， 浪潮信息与英特尔正式宣布，浪潮信息"源2.0系列基础大模型"已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配，本地推理速度

发表于 03-27 22:52 •499次阅读

浪潮信息与英特尔合作推出一种大模型效率工具“YuanChat”

3月26日，浪潮信息与英特尔正式宣布，浪潮信息“源2.0系列基础大模型”已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配，本地推理速度提升100%。

发表于 03-27 13:50 •629次阅读

潞晨科技Colossal-AI与浪潮信息AIStation完成兼容性互认证

近日，潞晨科技的Colossal-AI大模型开发工具和浪潮信息的AIStation智能业务创新生产平台成功完成了兼容性互认证。这一合作意味着用户可以在AIStation平台上便捷地部署与调度Colossal-AI系统，从而极大提升大模型

发表于 03-06 10:18 •799次阅读

潞晨科技Colossal-AI + 浪潮信息AIStation，大模型开发效率提升10倍

北京2024年2月29日 /美通社/ -- 近日，潞晨科技Colossal-AI大模型开发工具与浪潮信息AIStation智能业务创新生产平台完成兼容性互认证。基于AIStation平台部署与调度

发表于 03-01 09:43 •485次阅读

浪潮信息首提"高质量算力" 从五大特征来定义

，清华大学全球产业研究院副院长李东红，中国信通院产业与规划研究所副总工程师王青，浪潮元脑首席技术官张东及众多行业CIO等算力产学研用专家出席论坛，共同就推进算

发表于 12-28 15:34 •435次阅读