0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

富士通使用富岳超级计算机训练LLM

冬至配饺子 来源:网络整理 作者:网络整理 2024-05-13 14:18 次阅读

尽管富士通的富岳超级计算机不再是超级计算机500强名单中最快的机器,但它仍然是一个非常强大的系统,A64FX处理器的多功能性允许将其用于各种工作负载,例如AI。本周,富士通发布了Fugaku-LLM,这是一个具有高级日语处理能力的大型语言模型,专为研究和商业应用而设计。

富士通的Fugaku-LLM在富岳超级计算机的13,824个节点上使用3800亿个符记进行训练,该超级计算机基于A64FX处理器,支持FP64、FP32、FP16和INT8模式,适用于各种AI和传统超级计算机应用。Fugaku-LLM的训练利用了针对超级计算机架构和互连优化的分布式并行学习技术。

Fugaku-LLM 有 130 亿个参数,与 GPT-4 的 1750 亿个参数相比显得苍白无力,不过,Fugaku-LLM是日本有史以来训练量的最大 LLM。富士通表示,其130亿参数的LLM不需要大量的计算资源来推理,这对日本的企业和研究人员来说是最佳选择。大约 60% 的训练数据是日语,40% 的数据是英语、数学和代码数据。

这种广泛的以日语为中心的训练使其有别于其它主要在英语数据集上训练的日语模型。因此,Fugaku-LLM拥有卓越的日语水平,在日语MT-Bench上获得了5.5的平均分,这是使用日本原始数据训练的公开可用模型中的最高分。根据富士通的数据,它在人文和社会科学方面尤其出色,取得了令人印象深刻的 9.18 分的基准分数。

Fugaku-LLM计划是由东京工业大学、东北大学、富士通株式会社、RIKEN、名古屋大学、CyberAgent和Kotoba Technologies等日本领先机构之间的合作推动的。他们合作的原因之一是通常用于训练和推理 AI 模型的 GPU 短缺。另一个原因是,该模型可以与富士通的下一代 150 核 Monaka 数据中心 CPU 一起使用,该 CPU 针对 AI 和 HPC 工作负载进行了优化。

Fugaku-LLM现在可以在GitHub和Hugging Face的指定许可条款下用于学术和商业目的(尽管富士通没有提供任何链接)。此外,它从2024年5月10日起通过富士通研究门户网站提供。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19404

    浏览量

    230968
  • 超级计算机
    +关注

    关注

    2

    文章

    464

    浏览量

    41998
  • 富士通
    +关注

    关注

    2

    文章

    195

    浏览量

    54631
  • LLM
    LLM
    +关注

    关注

    0

    文章

    298

    浏览量

    383
收藏 人收藏

    评论

    相关推荐

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 12-17 10:19 182次阅读

    富士通综合报告(Fujitsu Integrated Report 2024)》带你全面了解富士通

      今年10月,富士通发布了 《富士通综合报告(Fujitsu Integrated Report 2024)》 。这份报告详细介绍了有关富士通的业务经营情况,以及创新的价值创造举措,旨在与所有
    的头像 发表于 12-11 17:31 564次阅读
    《<b class='flag-5'>富士通</b>综合报告(Fujitsu Integrated Report 2024)》带你全面了解<b class='flag-5'>富士通</b>

    如何训练自己的LLM模型

    训练自己的大型语言模型(LLM)是一个复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤,以及一些关
    的头像 发表于 11-08 09:30 751次阅读

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

    、超大规模的 AI 工厂提供卓越性能而设计的 RDMA(Remote Direct Memory Access)网络。   Colossus 是世界上最大的 AI 超级计算机,目前正被用于训练 xAI 的 Grok 系列大语言模
    发表于 10-30 09:33 175次阅读
    NVIDIA 以太网加速 xAI 构建的全球最大 AI <b class='flag-5'>超级</b><b class='flag-5'>计算机</b>

    丹麦推出首台AI超级计算机Gefion

    近日,丹麦正式推出了该国首台人工智能超级计算机,命名为Gefion,以纪念丹麦神话中的女神。此次揭幕仪式由英伟达首席执行官黄仁勋与丹麦国王共同出席,彰显了该项目的重要性和影响力。 Gefion AI
    的头像 发表于 10-29 15:13 453次阅读

    NVIDIA助力丹麦发布首台AI超级计算机

    这台丹麦最大的超级计算机由该国政府与丹麦 AI 创新中心共同建设,是一台 NVIDIA DGX SuperPOD 超级计算机
    的头像 发表于 10-27 09:42 495次阅读

    云端超级计算机怎么用

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的
    的头像 发表于 10-18 10:14 203次阅读

    借助NVIDIA超级计算机加速量子计算发展

    科学期刊《自然》(Nature)本月早些时候发表了一项研究,通过使用 NVIDIA 驱动的超级计算机,验证了量子计算的商业化途径。
    的头像 发表于 07-25 09:55 568次阅读

    富士通与Cohere合作,专注于开发和提供大型语言模型(LLM)

    富士通(Fujitsu)与总部位于多伦多与旧金山的顶尖安全及数据隐私人工智能企业Cohere Inc.携手宣布建立深度战略合作伙伴关系,共同致力于大型语言模型(LLM)的创新与开发,旨在为企业界带来前所未有的日语处理能力,进而优化客户与员工体验。
    的头像 发表于 07-16 16:55 533次阅读

    工业计算机与普通计算机的区别

    在信息化和自动化日益发展的今天,计算机已经成为了我们日常生活和工作中不可或缺的工具。然而,在计算机领域中,工业计算机和普通计算机虽然都具备基本的计算
    的头像 发表于 06-06 16:45 1583次阅读

    富士通发布《富士通技术与服务愿景2024》

    富士通近日发布了《富士通技术与服务愿景2024(Fujitsu Technology and Service Vision 2024,简称FT&SV 2024)》,阐述了对未来商业和社会的愿景。
    的头像 发表于 05-29 17:07 587次阅读
    <b class='flag-5'>富士通</b>发布《<b class='flag-5'>富士通</b>技术与服务愿景2024》

    日本超算富岳助力构建大规模语言模型Fugaku-LLM

    在昨日公布的新闻稿中,研究团队表示他们成功发掘了富岳超级计算机的潜能,使矩阵乘法运算速度提升六倍,通信速度提高三倍,从而证实大型纯CPU超级计算机
    的头像 发表于 05-11 17:07 942次阅读

    日本团队发布在富岳超算上训练的Fugaku-LLM大模型

    自2023年5月起,Fugaku-LLM模型的开发工作开始展开,最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所(简称理研)。
    的头像 发表于 05-11 10:05 443次阅读

    从原子到超级计算机:NVIDIA与合作伙伴扩展量子计算应用

    量子计算领域的最新进展包括分子研究、部署巨型超级计算机,以及通过一项新的学术计划培养量子从业人员。
    的头像 发表于 03-22 10:05 468次阅读

    【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

    大语言模型训练会是一个怎样的情景。。。。。。 希望量子计算机尽快走出实验室,能够早日进入寻常百姓家,更希望我国的量子计算机取得突破,蓬勃发展,也能遥遥领先! 今天先研读至此,后续所读所感将继续分享。 附
    发表于 03-05 17:37