日本团队发布在富岳超算上训练的Fugaku-LLM大模型-电子发烧友网

5月11日讯，多方企业与机构联手的日本研究小组昨日公布了Fugaku-LLM大型模型。该模型最大特点在于在Arm架构超算“富岳”上完成了训练。

自2023年5月起，Fugaku-LLM模型的开发工作开始展开，最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所（简称理研）。

至同年8月，又有三家合作伙伴——名古屋大学、CyberAgent（同时也是游戏巨头Cygames的母公司）及HPC-AI领域创新企业Kotoba Technologies加入项目。

研究团队在昨日的新闻发布会上表示，他们成功利用富岳超算的强大性能，使矩阵乘法运算速度提升6倍，通信速度提高3倍，从而证明大型纯CPU超算同样适用于大模型训练。

Fugaku-LLM模型参数规模达13B，成为日本国内最大的大型语言模型。

该模型采用13824个富岳超算节点，在3800亿个Token上进行训练，其中60%为日语数据，其余40%涵盖英语、数学、代码等内容。

研究团队表示，Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

在测试结果方面，该模型在日语MT-Bench模型基准测试中的平均得分高达5.5，位列基于日本语料资源的开放模型之首；在人文社科类别的测试中更获得了9.18的高分。

现如今，Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布，外部研究人员和工程师可在遵循许可协议的基础上，将该模型应用于学术和商业领域。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10922

浏览量
213283
模型

模型

+关注

关注
1

文章
3372

浏览量
49316
语言模型

语言模型

+关注

关注
0

文章
545

浏览量
10356
大模型

大模型

+关注

关注
2

文章
2652

浏览量
3268

小白学大模型：构建LLM的关键步骤

随着大规模语言模型（LLM）在性能、成本和应用前景上的快速发展，越来越多的团队开始探索如何自主训练LLM

发表于 01-09 12:12 •475次阅读

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解G

发表于 12-19 17:54 •276次阅读

什么是LLM？LLM在自然语言处理中的应用

随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了革命性的进步。其中，大型语言模型（LLM）的出现，标志着我们对语言理解能力的一次飞跃。LLM通过深度学习和海量数据训练，使得

发表于 11-19 15:32 •1407次阅读

如何训练自己的LLM模型

训练自己的大型语言模型（LLM）是一个复杂且资源密集的过程，涉及到大量的数据、计算资源和专业知识。以下是训练LLM

发表于 11-08 09:30 •914次阅读

LLM和传统机器学习的区别

和训练方法 LLM：预训练和微调： LLM通常采用预训练（Pre-training）和微调（Fine-tuning）的方法。预

发表于 11-08 09:25 •898次阅读

端到端InfiniBand网络解决LLM训练瓶颈

的，这需要大量的计算资源和高速数据传输网络。端到端InfiniBand（IB）网络作为高性能计算和AI模型训练的理想选择，发挥着重要作用。在本文中，我们将深入探讨大型语言模型（

发表于 10-23 11:26 •599次阅读

LLM预训练的基本概念、基本原理和主要优势

在人工智能和自然语言处理（NLP）领域，大型语言模型（Large Language Model，简称LLM）的兴起极大地推动了技术的进步和应用的发展。LLM通过

发表于 07-10 11:03 •1400次阅读

llm模型训练一般用什么系统

LLM（Large Language Model，大型语言模型）是近年来在自然语言处理领域取得显著成果的一种深度学习模型。它通常需要大量的计算资源和数据来进行

发表于 07-09 10:02 •532次阅读

llm模型有哪些格式

LLM（Large Language Model，大型语言模型）是一种深度学习模型，主要用于处理自然语言处理（NLP）任务。LLM模型的格式

发表于 07-09 09:59 •831次阅读

llm模型和chatGPT的区别

LLM（Large Language Model）是指大型语言模型，它们是一类使用深度学习技术构建的自然语言处理（NLP）模型。LLM模型可

发表于 07-09 09:55 •1386次阅读

大语言模型(LLM)快速理解

自2022年，ChatGPT发布之后，大语言模型（LargeLanguageModel），简称LLM掀起了一波狂潮。作为学习理解LLM的开始，先来整体理解一下大语言

发表于 06-04 08:27 •1201次阅读

超算训练大模型，不浪费一丁点计算资源

政府也投入到LLM的计算资源整合中来，从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在超算领域，而两者的计算资源存在一定的重合，不少人开始借助超算来进行LLM的开发。

发表于 05-20 07:08 •970次阅读

富士通使用富岳超级计算机训练LLM

尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器，但它仍然是一个非常强大的系统，A64FX处理器的多功能性允许将其用于各种工作负载，例如AI。

发表于 05-13 14:18 •620次阅读

日本超算富岳助力构建大规模语言模型Fugaku-LLM

在昨日公布的新闻稿中，研究团队表示他们成功发掘了富岳超级计算机的潜能，使矩阵乘法运算速度提升六倍，通信速度提高三倍，从而证实大型纯CPU超级计算机同样适用于大模型

发表于 05-11 17:07 •967次阅读

基于NVIDIA Megatron Core的MOE LLM实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型（

发表于 03-22 09:50 •932次阅读

搜索历史

日本团队发布在富岳超算上训练的Fugaku-LLM大模型

评论

小白学大模型：构建LLM的关键步骤

GPU是如何训练AI大模型的

什么是LLM？LLM在自然语言处理中的应用

如何训练自己的LLM模型

LLM和传统机器学习的区别

端到端InfiniBand网络解决LLM训练瓶颈

LLM预训练的基本概念、基本原理和主要优势

llm模型训练一般用什么系统

llm模型有哪些格式

llm模型和chatGPT的区别

大语言模型(LLM)快速理解

超算训练大模型，不浪费一丁点计算资源

富士通使用富岳超级计算机训练LLM

日本超算富岳助力构建大规模语言模型Fugaku-LLM

基于NVIDIA Megatron Core的MOE LLM实现和训练优化