0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

日本团队发布在富岳超算上训练的Fugaku-LLM大模型

微云疏影 来源:综合整理 作者:综合整理 2024-05-11 10:05 次阅读

5月11日讯,多方企业与机构联手的日本研究小组昨日公布了Fugaku-LLM大型模型。该模型最大特点在于在Arm架构超算“富岳”上完成了训练。

自2023年5月起,Fugaku-LLM模型的开发工作开始展开,最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所(简称理研)。

至同年8月,又有三家合作伙伴——名古屋大学、CyberAgent(同时也是游戏巨头Cygames的母公司)及HPC-AI领域创新企业Kotoba Technologies加入项目。

研究团队在昨日的新闻发布会上表示,他们成功利用富岳超算的强大性能,使矩阵乘法运算速度提升6倍,通信速度提高3倍,从而证明大型纯CPU超算同样适用于大模型训练。

Fugaku-LLM模型参数规模达13B,成为日本国内最大的大型语言模型。

该模型采用13824个富岳超算节点,在3800亿个Token上进行训练,其中60%为日语数据,其余40%涵盖英语、数学、代码等内容。

研究团队表示,Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

在测试结果方面,该模型在日语MT-Bench模型基准测试中的平均得分高达5.5,位列基于日本语料资源的开放模型之首;在人文社科类别的测试中更获得了9.18的高分。

现如今,Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布,外部研究人员和工程师可在遵循许可协议的基础上,将该模型应用于学术和商业领域。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10858

    浏览量

    211654
  • 模型
    +关注

    关注

    1

    文章

    3233

    浏览量

    48820
  • 语言模型
    +关注

    关注

    0

    文章

    522

    浏览量

    10272
  • 大模型
    +关注

    关注

    2

    文章

    2436

    浏览量

    2666
收藏 人收藏

    评论

    相关推荐

    GPU是如何训练AI大模型

    AI模型训练过程中,大量的计算工作集中矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解G
    的头像 发表于 12-19 17:54 102次阅读

    什么是LLMLLM自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域迎来了革命性的进步。其中,大型语言模型LLM)的出现,标志着我们对语言理解能力的一次飞跃。LLM通过深度学习和海量数据训练,使得
    的头像 发表于 11-19 15:32 550次阅读

    如何训练自己的LLM模型

    训练自己的大型语言模型LLM)是一个复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练LLM
    的头像 发表于 11-08 09:30 519次阅读

    LLM和传统机器学习的区别

    训练方法 LLM: 预训练和微调: LLM通常采用预训练(Pre-training)和微调(Fine-tuning)的方法。预
    的头像 发表于 11-08 09:25 430次阅读

    端到端InfiniBand网络解决LLM训练瓶颈

    的,这需要大量的计算资源和高速数据传输网络。端到端InfiniBand(IB)网络作为高性能计算和AI模型训练的理想选择,发挥着重要作用。本文中,我们将深入探讨大型语言模型
    的头像 发表于 10-23 11:26 387次阅读
    端到端InfiniBand网络解决<b class='flag-5'>LLM</b><b class='flag-5'>训练</b>瓶颈

    LLM训练的基本概念、基本原理和主要优势

    人工智能和自然语言处理(NLP)领域,大型语言模型(Large Language Model,简称LLM)的兴起极大地推动了技术的进步和应用的发展。LLM通过
    的头像 发表于 07-10 11:03 1066次阅读

    llm模型训练一般用什么系统

    LLM(Large Language Model,大型语言模型)是近年来自然语言处理领域取得显著成果的一种深度学习模型。它通常需要大量的计算资源和数据来进行
    的头像 发表于 07-09 10:02 405次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。LLM模型的格式
    的头像 发表于 07-09 09:59 610次阅读

    LLM模型和LMM模型的区别

    在重复测量或分层数据中。 LMM(线性混合效应模型)是一种特殊类型的线性混合模型,它包括固定效应和随机效应。它通常用于分析具有多个层次的数据结构,例如在多层次或分组数据中。 固定效应与随机效应:
    的头像 发表于 07-09 09:57 939次阅读

    llm模型和chatGPT的区别

    LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)模型LLM模型
    的头像 发表于 07-09 09:55 1049次阅读

    大语言模型(LLM)快速理解

    自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了一波狂潮。作为学习理解LLM的开始,先来整体理解一下大语言
    的头像 发表于 06-04 08:27 965次阅读
    大语言<b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    训练模型,不浪费一丁点计算资源

    政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在算领域,而两者的计算资源存在一定的重合,不少人开始借助算来进行LLM的开发。
    的头像 发表于 05-20 07:08 766次阅读

    富士通使用富岳超级计算机训练LLM

    尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器,但它仍然是一个非常强大的系统,A64FX处理器的多功能性允许将其用于各种工作负载,例如AI。
    的头像 发表于 05-13 14:18 546次阅读

    日本富岳助力构建大规模语言模型Fugaku-LLM

    昨日公布的新闻稿中,研究团队表示他们成功发掘了富岳超级计算机的潜能,使矩阵乘法运算速度提升六倍,通信速度提高三倍,从而证实大型纯CPU超级计算机同样适用于大模型
    的头像 发表于 05-11 17:07 904次阅读

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队 MoE (Mixture of Experts) 大语言模型
    的头像 发表于 03-22 09:50 767次阅读
    基于NVIDIA Megatron Core的MOE <b class='flag-5'>LLM</b>实现和<b class='flag-5'>训练</b>优化