0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超算训练大模型,不浪费一丁点计算资源

E4Life 来源:电子发烧友网 作者:周凯扬 2024-05-20 07:08 次阅读
电子发烧友网报道(文/周凯扬)近年来,有关大语言模型(LLM)的开发非常活跃,尤其是在中国、美国等市场。以OpenAI开发的ChatGPT为例,其迅速普及极大影响了技术研发、经济系统等,为此不少国家政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在超算领域,而两者的计算资源存在一定的重合,不少人开始借助超算来进行LLM的开发。

超算训练大模型的天然优势

大语言模型的训练经常会撞上GPU的内存墙,比如训练一个万亿参数的模型,就需要至少24TB的GPU内存。好在对于现代超算系统而言,GPU已经成为不可或缺的算力资源之一,不少超算的GPU规模与云服务厂商的数据中心相比,也不遑多让。以目前排名第一的Frontier超算为例,就集成了37888块AMD MI250X GPU。

美国橡树岭国家实验室的研究人员除了用Frontier完成科学计算任务以外,也使用了一部分GPU资源训练一个万亿级参数的LLM。据他们发布的论文,使用3072块MI250X GPU,他们训练了一个一万亿参数的大语言模型,这样的规模已经与OpenAI的GPT-4在同一水平线上了。

绝大多数模型的内存要求,除了来自参数量外,也来自梯度和优化器状态。尽管对大模型训练的任务进行了并行分解,美国橡树岭国家实验室的研究人员发现训练一个万亿级别的大模型还是需要14TB的内存,好在单个MI250X就拥有64GB的显存,足以满足训练要求。

富岳大模型

日前,一队日本研究员发布了富岳-LLM,一个专门针对日语能力进行加强的大语言模型,由RIKEN的超算系统富岳训练。尽管目前GPU才是训练LLM的首选硬件,而富岳超算是基于自研的Arm架构处理器构筑的,只有CPU并没有GPU。

为了在富岳上训练大语言模型,研究员们开发了分布式的训练方案,将深度学习框架Megatron-DeepSpeed移植到富岳上,从而优化Transformer模型在富岳上的性能表现。通过加速Transformer的密集矩阵乘法库,并结合三种并行化技术优化富岳的通信性能,富岳的并行训练能力得到了最大化。

富岳大模型有130亿参数,比目前已经在日本广泛使用的70亿参数模型规模还要大,尽管市面上早已出现参数更大的模型,但对于富岳超算来说,这已经是一个平衡高性能与计算资源的选择了。

除此之外,不少日本公司开发的大模型采用持续学习,采用海外开发的公开模型,用日本数据进行持续训练。而富岳大模型则是采用团队自己的数据从头开始训练的,所以在透明度和安全性上更高一筹。

富岳大模型用到了3800万个Token和富岳超算的13824个节点,其数据60%为日语,并与英语、数学运算和代码结合。该模型在人文和社会科学任务中获得了9.18的基准跑分,可以结合敬语或日语的其他特征进行自然对话。

写在最后

随着各地区纷纷开始建设超算智算资源,如何提高这些计算资源的利用率也成了关键。而训练大模型恰好需要用到如此庞大的计算资源,也有助于为各行各业提供可用大模型应用,由此看来,未来超算上大模型训练的场景也会越来越普遍。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超算
    +关注

    关注

    1

    文章

    114

    浏览量

    9051
  • 大模型
    +关注

    关注

    2

    文章

    2321

    浏览量

    2466
收藏 人收藏

    评论

    相关推荐

    AI云端计算资源有哪些类型

    AI云端计算资源涵盖了从基础设施到软件服务的多个层面,为AI模型训练、推理和部署提供了强大的支持。下面,AI部落小编为您详细介绍AI云端计算
    的头像 发表于 11-15 09:39 108次阅读

    如何训练自己的LLM模型

    训练自己的大型语言模型(LLM)是个复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识
    的头像 发表于 11-08 09:30 320次阅读

    ai模型训练需要什么配置

    AI模型训练个复杂且资源密集的过程,它依赖于高性能的硬件配置来确保训练的效率和效果。 、处
    的头像 发表于 10-17 18:10 829次阅读

    模型训练时代,九章云极DataCanvas公司打造普惠力服务新范式

    在数据存储与处理的关键环节,大模型训练模式对系统的安全性提出了更高要求,以确保资源能够无缝且安全地融入各类业务系统。依托业务系统与互联网的海量数据
    的头像 发表于 09-14 16:00 400次阅读
    大<b class='flag-5'>模型</b>后<b class='flag-5'>训练</b>时代,九章云极DataCanvas公司打造普惠<b class='flag-5'>算</b>力服务新范式

    摩尔线程与羽人科技完成大语言模型训练测试

    近日,摩尔线程与羽人科技携手宣布,双方已成功实现夸娥(KUAE)千卡智集群与羽人系列模型解决方案的训练兼容适配。在本次测试中,羽人科技通过摩尔线程夸娥千卡智集群,高效完成了70亿参
    的头像 发表于 08-27 16:19 496次阅读

    如何理解云计算

    和硬件资源。 在数字化时代,互联网已经成为基础设施。云计算使得数据中心能够像计算样去工作。通过互联网将
    发表于 08-16 17:02

    llm模型训练般用什么系统

    LLM(Large Language Model,大型语言模型)是近年来在自然语言处理领域取得显著成果的种深度学习模型。它通常需要大量的计算资源
    的头像 发表于 07-09 10:02 348次阅读

    人脸识别模型训练流程

    人脸识别模型训练流程是计算机视觉领域中的项重要技术。本文将详细介绍人脸识别模型训练流程,包括
    的头像 发表于 07-04 09:19 828次阅读

    深度学习模型训练过程详解

    深度学习模型训练个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练
    的头像 发表于 07-01 16:13 1074次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    具有以下三个非常显著的特点,个就是模型参数规模更大,训练数据更多。当然,对计算资源的要求也会更高。 构建强大的语言
    发表于 05-07 17:10

    科学计算的下轮创新,AI与数字孪生

    应用的行列中来。   AI 与数字孪生   在过去通用计算负载的时代,我们难以采用更大规模的计算集群来打造数字孪生。可随着AI技术,尤其是生成式AI技术的出现,采用高度定制化的AI
    的头像 发表于 05-07 00:16 1964次阅读
    科学<b class='flag-5'>计算</b>的下<b class='flag-5'>一</b>轮创新,AI<b class='flag-5'>超</b><b class='flag-5'>算</b>与数字孪生

    求问电子设计自学路径

    新手小白也想自己做出小车、小电视甚至小机器人等等有意思的项目,有C语言基础并且对stm32有了一丁点基础的了解,但是硬件、电路设计以及更高阶的程序语言仍然窍不通。请问自学路径是怎么样的(硬件和软件)?如何从0开始入门呢?如果有推荐的网课或者书籍,那就更好啦!谢谢各位大佬
    发表于 03-23 21:42

    AGI时代的奠基石:Agent+力+大模型是构建AI未来的三驾马车吗?

    AI Agent的训练离不开力,服务器作为个强大的计算中心,为AI Agent提供力基础,支持其进行复杂
    的头像 发表于 12-21 13:34 1141次阅读
    AGI时代的奠基石:Agent+<b class='flag-5'>算</b>力+大<b class='flag-5'>模型</b>是构建AI未来的三驾马车吗?

    深度学习如何训练出好的模型

    和足够的计算资源,还需要根据任务和数据的特点进行合理的参数调整、数据增强和模型微调。在本文中,我们将会详细介绍深度学习模型
    的头像 发表于 12-07 12:38 1053次阅读
    深度学习如何<b class='flag-5'>训练</b>出好的<b class='flag-5'>模型</b>

    天数智芯支持智源研究院首次完成大模型异构力混合训练,突破异构力束缚

    基于英伟达混合资源及天数智芯混合资源完成训练的大模型, 也是智源研究院与天数智芯合作取得的最新成果,再次证明了天数智芯通用 GPU 产品支持大模型
    的头像 发表于 11-30 13:10 3362次阅读
    天数智芯支持智源研究院首次完成大<b class='flag-5'>模型</b>异构<b class='flag-5'>算</b>力混合<b class='flag-5'>训练</b>,突破异构<b class='flag-5'>算</b>力束缚