0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

日本团队发布在富岳超算上训练的Fugaku-LLM大模型

微云疏影 来源:综合整理 作者:综合整理 2024-05-11 10:05 次阅读

5月11日讯,多方企业与机构联手的日本研究小组昨日公布了Fugaku-LLM大型模型。该模型最大特点在于在Arm架构超算“富岳”上完成了训练。

自2023年5月起,Fugaku-LLM模型的开发工作开始展开,最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所(简称理研)。

至同年8月,又有三家合作伙伴——名古屋大学、CyberAgent(同时也是游戏巨头Cygames的母公司)及HPC-AI领域创新企业Kotoba Technologies加入项目。

研究团队在昨日的新闻发布会上表示,他们成功利用富岳超算的强大性能,使矩阵乘法运算速度提升6倍,通信速度提高3倍,从而证明大型纯CPU超算同样适用于大模型训练。

Fugaku-LLM模型参数规模达13B,成为日本国内最大的大型语言模型。

该模型采用13824个富岳超算节点,在3800亿个Token上进行训练,其中60%为日语数据,其余40%涵盖英语、数学、代码等内容。

研究团队表示,Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

在测试结果方面,该模型在日语MT-Bench模型基准测试中的平均得分高达5.5,位列基于日本语料资源的开放模型之首;在人文社科类别的测试中更获得了9.18的高分。

现如今,Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布,外部研究人员和工程师可在遵循许可协议的基础上,将该模型应用于学术和商业领域。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10548

    浏览量

    207672
  • 模型
    +关注

    关注

    1

    文章

    2841

    浏览量

    48068
  • 语言模型
    +关注

    关注

    0

    文章

    466

    浏览量

    10171
  • 大模型
    +关注

    关注

    2

    文章

    1884

    浏览量

    1506
收藏 人收藏

    评论

    相关推荐

    大语言模型(LLM)快速理解

    自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了一波狂潮。作为学习理解LLM的开始,先来整体理解一下大语言
    的头像 发表于 06-04 08:27 398次阅读
    大语言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    超算训练模型,不浪费一丁点计算资源

    政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在超算领域,而两者的计算资源存在一定的重合,不少人开始借助超算来进行LLM的开发。   超算训练
    的头像 发表于 05-20 07:08 452次阅读

    富士通使用富岳超级计算机训练LLM

    尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器,但它仍然是一个非常强大的系统,A64FX处理器的多功能性允许将其用于各种工作负载,例如AI。
    的头像 发表于 05-13 14:18 282次阅读

    日本超算富岳助力构建大规模语言模型Fugaku-LLM

    在昨日公布的新闻稿中,研究团队表示他们成功发掘了富岳超级计算机的潜能,使矩阵乘法运算速度提升六倍,通信速度提高三倍,从而证实大型纯CPU超级计算机同样适用于大模型训练
    的头像 发表于 05-11 17:07 677次阅读

    了解大型语言模型 (LLM) 领域中的25个关键术语

    1.LLM(大语言模型)大型语言模型(LLMs)是先进的人工智能系统,经过大量文本数据集的训练,可以理解和生成类似人类的文本。他们使用深度学习技术以上下文相关的方式处理和生成语言。Op
    的头像 发表于 05-10 08:27 950次阅读
    了解大型语言<b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 领域中的25个关键术语

    【大语言模型:原理与工程实践】大语言模型的预训练

    增长。DeepMind相关论文中指出,模型大小和训练Token数应以相似速率增长,以确保最佳性能。因此,构建与模型规模相匹配的预训练数据至
    发表于 05-07 17:10

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型LLM)实现与
    的头像 发表于 03-22 09:50 364次阅读
    基于NVIDIA Megatron Core的MOE <b class='flag-5'>LLM</b>实现和<b class='flag-5'>训练</b>优化

    2023年LLM模型研究进展

    作为做LLM应用的副产品,我们提出了RLCD[11],通过同时使用正例和负例prompt,自动生成带标签的生成样本不需人工标注,然后可以接大模型微调,或者用于训练reward models
    发表于 01-19 13:55 363次阅读

    优于10倍参数模型!微软发布Orca 2 LLM

    微软发布 Orca 2 LLM,这是 Llama 2 的一个调优版本,性能与包含 10 倍参数的模型相当,甚至更好。
    的头像 发表于 12-26 14:23 397次阅读

    NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

    本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU 以及亚马逊云科技的 EFA 来训练其 最大的新一代大语言模型LLM)。 大语言模型的一切都很庞大——巨型
    的头像 发表于 11-29 21:15 374次阅读
    NVIDIA 为部分大型亚马逊 Titan 基础<b class='flag-5'>模型</b>提供<b class='flag-5'>训练</b>支持

    Long-Context下LLM模型架构全面介绍

    的限制:当前许多LLM受资源限制,主要是在较短的文本上进行预训练,使它们对现实世界中常见的较长的上下文提示不太有效。本文对基于Transformer的LLM模型架构的进展进行了全面的介
    的头像 发表于 11-27 17:37 655次阅读
    Long-Context下<b class='flag-5'>LLM</b><b class='flag-5'>模型</b>架构全面介绍

    从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLM

    要理解大语言模型LLM),首先要理解它的本质,无论预训练、微调还是在推理阶段,核心都是next token prediction,也就是以自回归的方式从左到右逐步生成文本。
    的头像 发表于 09-19 16:25 820次阅读
    从原理到代码理解语言<b class='flag-5'>模型</b><b class='flag-5'>训练</b>和推理,通俗易懂,快速修炼<b class='flag-5'>LLM</b>

    大语言模型LLM)预训练数据集调研分析

    model 训练完成后,使用 instruction 以及其他高质量的私域数据集来提升 LLM 在特定领域的性能;而 rlhf 是 openAI 用来让model 对齐人类价值观的一种强大技术;pre-training dataset 是大
    的头像 发表于 09-19 10:00 704次阅读
    大语言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)预<b class='flag-5'>训练</b>数据集调研分析

    开源大模型FLM-101B:训练成本最低的超100B参数大模型

    近期,一支来自中国的研究团队正是针对这些问题提出了解决方案,他们推出了FLM-101B模型及其配套的训练策略。FLM-101B不仅大幅降低了训练成本,而且其性能表现仍然非常出色,它是目
    的头像 发表于 09-12 16:30 1131次阅读
    开源大<b class='flag-5'>模型</b>FLM-101B:<b class='flag-5'>训练</b>成本最低的超100B参数大<b class='flag-5'>模型</b>

    训练大语言模型带来的硬件挑战

    生成式AI和大语言模型LLM)正在以难以置信的方式吸引全世界的目光,本文简要介绍了大语言模型训练这些模型带来的硬件挑战,以及GPU和网络
    的头像 发表于 09-01 17:14 1235次阅读
    <b class='flag-5'>训练</b>大语言<b class='flag-5'>模型</b>带来的硬件挑战