0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超算训练大模型,不浪费一丁点计算资源

E4Life 来源:电子发烧友网 作者:周凯扬 2024-05-20 07:08 次阅读
电子发烧友网报道(文/周凯扬)近年来,有关大语言模型(LLM)的开发非常活跃,尤其是在中国、美国等市场。以OpenAI开发的ChatGPT为例,其迅速普及极大影响了技术研发、经济系统等,为此不少国家政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在超算领域,而两者的计算资源存在一定的重合,不少人开始借助超算来进行LLM的开发。

超算训练大模型的天然优势

大语言模型的训练经常会撞上GPU的内存墙,比如训练一个万亿参数的模型,就需要至少24TB的GPU内存。好在对于现代超算系统而言,GPU已经成为不可或缺的算力资源之一,不少超算的GPU规模与云服务厂商的数据中心相比,也不遑多让。以目前排名第一的Frontier超算为例,就集成了37888块AMD MI250X GPU。

美国橡树岭国家实验室的研究人员除了用Frontier完成科学计算任务以外,也使用了一部分GPU资源训练一个万亿级参数的LLM。据他们发布的论文,使用3072块MI250X GPU,他们训练了一个一万亿参数的大语言模型,这样的规模已经与OpenAI的GPT-4在同一水平线上了。

绝大多数模型的内存要求,除了来自参数量外,也来自梯度和优化器状态。尽管对大模型训练的任务进行了并行分解,美国橡树岭国家实验室的研究人员发现训练一个万亿级别的大模型还是需要14TB的内存,好在单个MI250X就拥有64GB的显存,足以满足训练要求。

富岳大模型

日前,一队日本研究员发布了富岳-LLM,一个专门针对日语能力进行加强的大语言模型,由RIKEN的超算系统富岳训练。尽管目前GPU才是训练LLM的首选硬件,而富岳超算是基于自研的Arm架构处理器构筑的,只有CPU并没有GPU。

为了在富岳上训练大语言模型,研究员们开发了分布式的训练方案,将深度学习框架Megatron-DeepSpeed移植到富岳上,从而优化Transformer模型在富岳上的性能表现。通过加速Transformer的密集矩阵乘法库,并结合三种并行化技术优化富岳的通信性能,富岳的并行训练能力得到了最大化。

富岳大模型有130亿参数,比目前已经在日本广泛使用的70亿参数模型规模还要大,尽管市面上早已出现参数更大的模型,但对于富岳超算来说,这已经是一个平衡高性能与计算资源的选择了。

除此之外,不少日本公司开发的大模型采用持续学习,采用海外开发的公开模型,用日本数据进行持续训练。而富岳大模型则是采用团队自己的数据从头开始训练的,所以在透明度和安全性上更高一筹。

富岳大模型用到了3800万个Token和富岳超算的13824个节点,其数据60%为日语,并与英语、数学运算和代码结合。该模型在人文和社会科学任务中获得了9.18的基准跑分,可以结合敬语或日语的其他特征进行自然对话。

写在最后

随着各地区纷纷开始建设超算智算资源,如何提高这些计算资源的利用率也成了关键。而训练大模型恰好需要用到如此庞大的计算资源,也有助于为各行各业提供可用大模型应用,由此看来,未来超算上大模型训练的场景也会越来越普遍。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超算
    +关注

    关注

    1

    文章

    114

    浏览量

    8988
  • 大模型
    +关注

    关注

    2

    文章

    1897

    浏览量

    1516
收藏 人收藏

    评论

    相关推荐

    人脸识别模型训练流程

    人脸识别模型训练流程是计算机视觉领域中的项重要技术。本文将详细介绍人脸识别模型训练流程,包括
    的头像 发表于 07-04 09:19 137次阅读

    训练模型的基本原理和应用

    训练模型(Pre-trained Model)是深度学习和机器学习领域中的个重要概念,尤其是在自然语言处理(NLP)和计算机视觉(CV)等领域中得到了广泛应用。预
    的头像 发表于 07-03 18:20 346次阅读

    深度学习模型训练过程详解

    深度学习模型训练个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练
    的头像 发表于 07-01 16:13 143次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    具有以下三个非常显著的特点,个就是模型参数规模更大,训练数据更多。当然,对计算资源的要求也会更高。 构建强大的语言
    发表于 05-07 17:10

    科学计算的下轮创新,AI与数字孪生

    应用的行列中来。   AI 与数字孪生   在过去通用计算负载的时代,我们难以采用更大规模的计算集群来打造数字孪生。可随着AI技术,尤其是生成式AI技术的出现,采用高度定制化的AI
    的头像 发表于 05-07 00:16 1744次阅读
    科学<b class='flag-5'>计算</b>的下<b class='flag-5'>一</b>轮创新,AI<b class='flag-5'>超</b><b class='flag-5'>算</b>与数字孪生

    求问电子设计自学路径

    新手小白也想自己做出小车、小电视甚至小机器人等等有意思的项目,有C语言基础并且对stm32有了一丁点基础的了解,但是硬件、电路设计以及更高阶的程序语言仍然窍不通。请问自学路径是怎么样的(硬件和软件)?如何从0开始入门呢?如果有推荐的网课或者书籍,那就更好啦!谢谢各位大佬
    发表于 03-23 21:42

    AGI时代的奠基石:Agent+力+大模型是构建AI未来的三驾马车吗?

    AI Agent的训练离不开力,服务器作为个强大的计算中心,为AI Agent提供力基础,支持其进行复杂
    的头像 发表于 12-21 13:34 910次阅读
    AGI时代的奠基石:Agent+<b class='flag-5'>算</b>力+大<b class='flag-5'>模型</b>是构建AI未来的三驾马车吗?

    深度学习如何训练出好的模型

    和足够的计算资源,还需要根据任务和数据的特点进行合理的参数调整、数据增强和模型微调。在本文中,我们将会详细介绍深度学习模型
    的头像 发表于 12-07 12:38 812次阅读
    深度学习如何<b class='flag-5'>训练</b>出好的<b class='flag-5'>模型</b>

    分画质大模型!华为和清华联合提出CoSeR:基于认知的万物分大模型

    是缺乏泛化能力。为了实现更好的分效果,通常需要针对特定场景使用特定传感器采集到的数据来进行模型训练,这种学习方式拟合了某种低清图像和高清图像间的映射,但在其他场景下表现不佳。此外,
    的头像 发表于 12-04 16:22 448次阅读
    <b class='flag-5'>超</b>分画质大<b class='flag-5'>模型</b>!华为和清华联合提出CoSeR:基于认知的万物<b class='flag-5'>超</b>分大<b class='flag-5'>模型</b>

    天数智芯支持智源研究院首次完成大模型异构力混合训练,突破异构力束缚

    基于英伟达混合资源及天数智芯混合资源完成训练的大模型, 也是智源研究院与天数智芯合作取得的最新成果,再次证明了天数智芯通用 GPU 产品支持大模型
    的头像 发表于 11-30 13:10 1834次阅读
    天数智芯支持智源研究院首次完成大<b class='flag-5'>模型</b>异构<b class='flag-5'>算</b>力混合<b class='flag-5'>训练</b>,突破异构<b class='flag-5'>算</b>力束缚

    GPT-4 Turbo 发布 | 大模型训练的新时代:互联网的调度与调优

    力对训练模型的重要性日益凸显。随着大模型训练的流行,全球显卡和力正在快速增长。
    的头像 发表于 11-09 09:06 1162次阅读
    GPT-4 Turbo 发布 | 大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>的新时代:<b class='flag-5'>超</b><b class='flag-5'>算</b>互联网的调度与调优

    PODsys:大模型AI力平台部署的开源“神器”

    模型是通用人工智能的底座,但大模型训练力平台的依赖非常大。大模型力平台是指支撑大
    的头像 发表于 11-08 09:17 564次阅读
    PODsys:大<b class='flag-5'>模型</b>AI<b class='flag-5'>算</b>力平台部署的开源“神器”

    揭秘英伟达A100、A800、H100、H800 GPU如何实现高性能大模型的百倍训练加速

    原理包括输入数据的处理、多层神经网络计算和输出结果生成。这些模型通常由数十亿个参数组成,需要庞大的计算资源和高速的存储器来进行训练和推理。
    的头像 发表于 09-09 11:15 1497次阅读
    揭秘英伟达A100、A800、H100、H800 GPU如何实现高性能大<b class='flag-5'>模型</b>的百倍<b class='flag-5'>训练</b>加速

    如何在SAM时代下打造高效的高性能计算模型训练平台

    Segment Anything Model (SAM)是Meta 公司最近推出的个创新AI 模型,专门用于计算机视觉领域图像分割任务。借鉴ChatGPT 的学习范式,将预训练和特定
    的头像 发表于 08-21 04:02 1476次阅读
    如何在SAM时代下打造高效的高性能<b class='flag-5'>计算</b>大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>平台

    无人机导航定位技术涉及哪些方面

    GPS接收机至少要通过4颗卫星,才能确定自己的空间坐标和时间坐标。卫星定位最不好解决的问题就是误差,因为信号在传输的时候,因为大气等因素的影响,速度哪怕慢一丁点,影响都比较大,因为光速特别快,所以GPS的误差般是在几米到几十米.
    发表于 07-31 11:49 3447次阅读
    无人机导航定位技术涉及哪些方面