0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

日本超算富岳助力构建大规模语言模型Fugaku-LLM

微云疏影 来源:综合整理 作者:综合整理 2024-05-11 17:07 次阅读

日本多企业联合科研组于昨日宣布推出Fugaku-LLM大模型,此模型基于Arm架构的“富岳”超级计算机进行培训,呈现出显著特性。

Fugaku-LLM模型项目自2023年5月起启动,初始参加方包括富士通、东京工业大学、日本东北大学及日本理化学研究所(简称理研)。至同年8月,又有三家合作伙伴——名古屋大学、CyberAgent(Cygames母公司)以及HPC-AI领域创新企业Kotoba Technologies加入。

在昨日公布的新闻稿中,研究团队表示他们成功发掘了富岳超级计算机的潜能,使矩阵乘法运算速度提升六倍,通信速度提高三倍,从而证实大型纯CPU超级计算机同样适用于大模型训练。

Fugaku-LLM模型参数规模达13B,成为日本国内最大的大型语言模型。该模型利用13824个富岳超级计算机节点,在3800亿个Token上进行训练,其中60%为日语数据,其余40%涵盖英语、数学、代码等内容。

研究团队表示,Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

在测试结果方面,该模型在日语MT-Bench模型基准测试中的平均得分高达5.5,位列基于日本语料资源的开放模型之首;同时,在人文社科类别的测试中获得9.18的高分。

目前,Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布,外部研究人员和工程师可以在遵循许可协议的前提下,将该模型应用于学术和商业领域。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10794

    浏览量

    210662
  • 超级计算机
    +关注

    关注

    2

    文章

    459

    浏览量

    41897
  • 大模型
    +关注

    关注

    2

    文章

    2252

    浏览量

    2314
收藏 人收藏

    评论

    相关推荐

    模型LLM与ChatGPT的技术原理

    在人工智能领域,大模型(Large Language Model, LLM)和ChatGPT等自然语言处理技术(Natural Language Processing, NLP)正逐步改变着人类
    的头像 发表于 07-10 10:38 611次阅读

    llm模型本地部署有用吗

    在当今的人工智能领域,LLM(Large Language Model,大型语言模型)已经成为了一种非常受欢迎的技术。它们在自然语言处理(NLP)任务中表现出色,如文本生成、翻译、摘要
    的头像 发表于 07-09 10:14 363次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。
    的头像 发表于 07-09 09:59 483次阅读

    llm模型和chatGPT的区别

    LLM(Large Language Model)是指大型语言模型,它们是一类使用深度学习技术构建的自然语言处理(NLP)
    的头像 发表于 07-09 09:55 791次阅读

    LLM模型的应用领域

    在本文中,我们将深入探讨LLM(Large Language Model,大型语言模型)的应用领域。LLM是一种基于深度学习的人工智能技术,它能够理解和生成自然
    的头像 发表于 07-09 09:52 459次阅读

    预定下代第一?富士通144核Arm处理器公开

    设计A64FX SoC,整个集群的峰值性能可以达到537.21PFlop/s。如此强大的性能,甚至于日本东京工业大学、日本东北大学等都宣布将借助
    的头像 发表于 06-24 00:26 2659次阅读
    预定下代<b class='flag-5'>超</b><b class='flag-5'>算</b>第一?富士通144核Arm处理器公开

    语言模型(LLM)快速理解

    自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了一波狂潮。作为学习理解LLM的开始,先来整体理解一下大
    的头像 发表于 06-04 08:27 840次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)快速理解

    LLM之外的性价比之选,小语言模型

    。然而在一些对实时性要求较高的应用中,比如AI客服、实时数据分析等,大语言模型并没有太大的优势。   在动辄万亿参数的LLM下,硬件需求已经遭受了不小的挑战。所以面对一些相对简单的任务,规模
    的头像 发表于 06-03 05:15 2143次阅读
    <b class='flag-5'>LLM</b>之外的性价比之选,小<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    训练大模型,不浪费一丁点计算资源

    政府也投入到LLM的计算资源整合中来,从而不至于落后这轮新的全球技术军备战。同样的计算资源竞争也发生在领域,而两者的计算资源存在一定的重合,不少人开始借助算来进行
    的头像 发表于 05-20 07:08 676次阅读

    日本团队发布在富岳算上训练的Fugaku-LLM模型

    自2023年5月起,Fugaku-LLM模型的开发工作开始展开,最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所(简称理研)。
    的头像 发表于 05-11 10:05 346次阅读

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本,为故事创作等提供无限可能。大语言模型也面临挑战。一方面,其计算资源需求巨大,训练和推理耗时;另一方面,模型高度依赖数据,需要大规模
    发表于 05-04 23:55

    在被60亿美元收购后,日本光刻胶巨头JSR寻求扩大规模

    在被60亿美元收购后,日本光刻胶巨头JSR积极寻求扩大规模,以适应全球芯片制造行业的快速发展。
    的头像 发表于 04-29 14:37 660次阅读

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    ,在大模型实践和理论研究的过程中,历时8个月完成 《大规模语言模型:从理论到实践》 一书的撰写。希望这本书能够帮助读者快速入门大模型的研究和
    发表于 03-11 15:16

    大规模神经网络优化:参最佳实践与规模

    从理论分析入手把握大规模神经网络优化的规律,可以指导实践中的参数选择。反过来,实践中的参数选择也可以指导理论分析。本篇文章聚焦于大语言模型
    的头像 发表于 12-10 21:45 926次阅读

    大规模语言模型的基本概念、发展历程和构建流程

    大规模语言模型(Large Language Models,LLM),也称大规模语言
    的头像 发表于 12-07 11:40 3524次阅读
    <b class='flag-5'>大规模</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>的基本概念、发展历程和<b class='flag-5'>构建</b>流程