电子发烧友网报道(文/周凯扬)近年来,有关大语言模型(LLM)的开发非常活跃,尤其是在中国、美国等市场。以OpenAI开发的ChatGPT为例,其迅速普及极大影响了技术研发、经济系统等,为此不少国家政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在超算领域,而两者的计算资源存在一定的重合,不少人开始借助超算来进行LLM的开发。
超算训练大模型的天然优势
大语言模型的训练经常会撞上GPU的内存墙,比如训练一个万亿参数的模型,就需要至少24TB的GPU内存。好在对于现代超算系统而言,GPU已经成为不可或缺的算力资源之一,不少超算的GPU规模与云服务厂商的数据中心相比,也不遑多让。以目前排名第一的Frontier超算为例,就集成了37888块AMD MI250X GPU。
美国橡树岭国家实验室的研究人员除了用Frontier完成科学计算任务以外,也使用了一部分GPU资源训练一个万亿级参数的LLM。据他们发布的论文,使用3072块MI250X GPU,他们训练了一个一万亿参数的大语言模型,这样的规模已经与OpenAI的GPT-4在同一水平线上了。
绝大多数模型的内存要求,除了来自参数量外,也来自梯度和优化器状态。尽管对大模型训练的任务进行了并行分解,美国橡树岭国家实验室的研究人员发现训练一个万亿级别的大模型还是需要14TB的内存,好在单个MI250X就拥有64GB的显存,足以满足训练要求。
富岳大模型
日前,一队日本研究员发布了富岳-LLM,一个专门针对日语能力进行加强的大语言模型,由RIKEN的超算系统富岳训练。尽管目前GPU才是训练LLM的首选硬件,而富岳超算是基于自研的Arm架构处理器构筑的,只有CPU并没有GPU。
为了在富岳上训练大语言模型,研究员们开发了分布式的训练方案,将深度学习框架Megatron-DeepSpeed移植到富岳上,从而优化Transformer模型在富岳上的性能表现。通过加速Transformer的密集矩阵乘法库,并结合三种并行化技术优化富岳的通信性能,富岳的并行训练能力得到了最大化。
富岳大模型有130亿参数,比目前已经在日本广泛使用的70亿参数模型规模还要大,尽管市面上早已出现参数更大的模型,但对于富岳超算来说,这已经是一个平衡高性能与计算资源的选择了。
除此之外,不少日本公司开发的大模型采用持续学习,采用海外开发的公开模型,用日本数据进行持续训练。而富岳大模型则是采用团队自己的数据从头开始训练的,所以在透明度和安全性上更高一筹。
富岳大模型用到了3800万个Token和富岳超算的13824个节点,其数据60%为日语,并与英语、数学运算和代码结合。该模型在人文和社会科学任务中获得了9.18的基准跑分,可以结合敬语或日语的其他特征进行自然对话。
写在最后
随着各地区纷纷开始建设超算智算资源,如何提高这些计算资源的利用率也成了关键。而训练大模型恰好需要用到如此庞大的计算资源,也有助于为各行各业提供可用大模型应用,由此看来,未来超算上大模型训练的场景也会越来越普遍。
超算训练大模型的天然优势
大语言模型的训练经常会撞上GPU的内存墙,比如训练一个万亿参数的模型,就需要至少24TB的GPU内存。好在对于现代超算系统而言,GPU已经成为不可或缺的算力资源之一,不少超算的GPU规模与云服务厂商的数据中心相比,也不遑多让。以目前排名第一的Frontier超算为例,就集成了37888块AMD MI250X GPU。
美国橡树岭国家实验室的研究人员除了用Frontier完成科学计算任务以外,也使用了一部分GPU资源训练一个万亿级参数的LLM。据他们发布的论文,使用3072块MI250X GPU,他们训练了一个一万亿参数的大语言模型,这样的规模已经与OpenAI的GPT-4在同一水平线上了。
绝大多数模型的内存要求,除了来自参数量外,也来自梯度和优化器状态。尽管对大模型训练的任务进行了并行分解,美国橡树岭国家实验室的研究人员发现训练一个万亿级别的大模型还是需要14TB的内存,好在单个MI250X就拥有64GB的显存,足以满足训练要求。
富岳大模型
日前,一队日本研究员发布了富岳-LLM,一个专门针对日语能力进行加强的大语言模型,由RIKEN的超算系统富岳训练。尽管目前GPU才是训练LLM的首选硬件,而富岳超算是基于自研的Arm架构处理器构筑的,只有CPU并没有GPU。
为了在富岳上训练大语言模型,研究员们开发了分布式的训练方案,将深度学习框架Megatron-DeepSpeed移植到富岳上,从而优化Transformer模型在富岳上的性能表现。通过加速Transformer的密集矩阵乘法库,并结合三种并行化技术优化富岳的通信性能,富岳的并行训练能力得到了最大化。
富岳大模型有130亿参数,比目前已经在日本广泛使用的70亿参数模型规模还要大,尽管市面上早已出现参数更大的模型,但对于富岳超算来说,这已经是一个平衡高性能与计算资源的选择了。
除此之外,不少日本公司开发的大模型采用持续学习,采用海外开发的公开模型,用日本数据进行持续训练。而富岳大模型则是采用团队自己的数据从头开始训练的,所以在透明度和安全性上更高一筹。
富岳大模型用到了3800万个Token和富岳超算的13824个节点,其数据60%为日语,并与英语、数学运算和代码结合。该模型在人文和社会科学任务中获得了9.18的基准跑分,可以结合敬语或日语的其他特征进行自然对话。
写在最后
随着各地区纷纷开始建设超算智算资源,如何提高这些计算资源的利用率也成了关键。而训练大模型恰好需要用到如此庞大的计算资源,也有助于为各行各业提供可用大模型应用,由此看来,未来超算上大模型训练的场景也会越来越普遍。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
超算
+关注
关注
1文章
115浏览量
9071 -
大模型
+关注
关注
2文章
2438浏览量
2669
发布评论请先 登录
相关推荐
GPU是如何训练AI大模型的
在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大
AI云端计算资源有哪些类型
AI云端计算资源涵盖了从基础设施到软件服务的多个层面,为AI模型的训练、推理和部署提供了强大的支持。下面,AI部落小编为您详细介绍AI云端计算
大模型后训练时代,九章云极DataCanvas公司打造普惠算力服务新范式
在数据存储与处理的关键环节,大模型后训练模式对系统的安全性提出了更高要求,以确保算力资源能够无缝且安全地融入各类业务系统。依托业务系统与互联网的海量数据
摩尔线程与羽人科技完成大语言模型训练测试
近日,摩尔线程与羽人科技携手宣布,双方已成功实现夸娥(KUAE)千卡智算集群与羽人系列模型解决方案的训练兼容适配。在本次测试中,羽人科技通过摩尔线程夸娥千卡智算集群,高效完成了70亿参
llm模型训练一般用什么系统
LLM(Large Language Model,大型语言模型)是近年来在自然语言处理领域取得显著成果的一种深度学习模型。它通常需要大量的计算资源
预训练模型的基本原理和应用
预训练模型(Pre-trained Model)是深度学习和机器学习领域中的一个重要概念,尤其是在自然语言处理(NLP)和计算机视觉(CV)等领域中得到了广泛应用。预
科学计算的下一轮创新,AI超算与数字孪生
应用的行列中来。 AI 超算与数字孪生 在过去通用计算负载的时代,我们难以采用更大规模的计算集群来打造数字孪生。可随着AI技术,尤其是生成式AI技术的出现,采用高度定制化的AI
求问电子设计自学路径
新手小白也想自己做出小车、小电视甚至小机器人等等有意思的项目,有C语言基础并且对stm32有了一丁点基础的了解,但是硬件、电路设计以及更高阶的程序语言仍然一窍不通。请问自学路径是怎么样的(硬件和软件)?如何从0开始入门呢?如果有推荐的网课或者书籍,那就更好啦!谢谢各位大佬
发表于 03-23 21:42
评论