0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从零开始训练一个大语言模型需要投资多少钱?

jf_23871869 来源:jf_23871869 作者:jf_23871869 2024-11-08 14:15 次阅读

一,前言

AI领域,训练一个大型语言模型(LLM)是一个耗时且复杂的过程。几乎每个做大型语言模型(LLM)训练的人都会被问到:“从零开始,训练大语言模型需要多久和花多少钱?”虽然网上有很多关于训练技巧和模型评估的文章,但很少有直接告诉你如何估算训练时间和成本的。前面分享了一些关于大模型/本地知识库的安装部署方法,无需编写代码,即可使用Ollama+AnythingLLM搭建企业私有知识库,或者,三步完成Llama3.2在算力魔方的INT4量化和部署...本篇文章就教你一个简单的方法,帮你快速估算基于大语言模型权重大小、数据量以及可用GPU算力训练大语言模型所需的时间和成本。

二,估算方法

训练模型时,处理数据和更新模型参数需要大量的计算,我们用浮点运算次数(FLOPs)来表示。首先,我们要估算处理一个token所需的FLOPs,包括前向传递和反向传递两个部分。

  • 前向传递:

每个token的前向传递涉及的加乘操作数大约为:

FLOPsforward= 2 x N²+2 x N x Dmodel

这里N表示模型的参数量,Dmodel是模型的维度。系数2来源于矩阵乘法中的累加操作。

  • 反向传递:

大约需要前向传递的两倍计算量,因为要计算权重和激活值的梯度。

FLOPsbackward=(2 x N²+2 x N x Dmodel)x 2

  • 所以,一个token总的计算量大概是前向传递的三倍。因此,每个训练token的浮点运算可以估算为:

FLOPstotal=(2 x N²+2 x N x Dmodel)x 3

三,GPU性能

现在大多数模型都是用GPU来训练的。不同的GPU有不同的性能,比如NVIDIA的H100、A100或V100。每个GPU的性能可以用每秒浮点运算次数(FLOPS)来衡量。不过,实际训练时,由于多GPU之间的通信等因素,实际性能可能达不到理论上的最高值。

GPU Model Peak FLOPS (FP32)
H100 67 TFLOPS
A100 19.5 TFLOPS
V100 14 TFLOPS

一个重要的概念是模型FLOPS利用率(MFU),它反映了实际计算效率与理论最大值的比例。通常情况下,随着GPU数量的增加,MFU会下降。LLaMA 3的研究者们用16,000个GPU训练模型时,每个GPU的实际效率为380 teraflops,MFU为38%。

wKgaoWctrHiAWQXlAAAUop8DYW8628.png

四,实际案例

1,l Llama 3 405B 参数模型

LLaMA 3.1(405B参数)是在15.6万亿token的数据集上训练的。训练这样一个规模的模型所需的总FLOPs可以通过以下方式计算:

  • 模型大小N = 405B
  • 数据集大小P = 15.6T

模型使用了16,000个H100 GPU进行训练。据了解,平均吞吐量为每个GPU 400 teraflops。这意味着训练基础设施可以提供的总吞吐量为:

TotalThroughput

=400TFLOPs/GPU×16,000GPUs

=6.4ExaFLOPs

最后,通过将所需的总FLOPs除以可用吞吐量,并将结果转换为天数(因为我们真正关心的是训练天数),我们可以得到训练时间。

3.8 x 1025FLOPs ÷ 6.4 x1018FLOPs/秒 =61

2,成本估算

训练模型不仅耗时,还非常昂贵。以LLaMA 3.1为例,如果一个H100 GPU每小时的费用是2美元,那么用16,000个H100训练这个模型的总成本大约为2 x 24 x 61 x 16,000 = 46,848,000美元。

五,总结

训练大型语言模型是一项技术复杂且资金密集的任务。从零开始,把一个LLaMA 3.1(405B参数)的模型在15.6万亿token数据集上训练出来,大约需要花费61天(假设没有训练中断)和46,848,000美元(仅估算GPU租金、数据集制作费用和研发人力成本未计入),你算对了吗?

更多精彩内容请点击下方名片,关注“算力魔方®”公众号!


审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    31845

    浏览量

    270672
  • 语言模型
    +关注

    关注

    0

    文章

    545

    浏览量

    10356
  • 大模型
    +关注

    关注

    2

    文章

    2652

    浏览量

    3267
收藏 人收藏

    评论

    相关推荐

    腾讯公布大语言模型训练新专利

    语言模型训练过程中引入第摘要文本和第二摘要文本,为模型提供了更为丰富的学习信息。这两摘要
    的头像 发表于 02-10 09:37 92次阅读

    采用FP8混合精度,DeepSeek V3训练成本仅557.6万美元!

    , 前言    在AI领域,训练个大语言模型(LLM)是
    的头像 发表于 01-13 11:12 584次阅读

    小白学大模型:构建LLM的关键步骤

    随着大规模语言模型(LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM模型。然而,是否
    的头像 发表于 01-09 12:12 474次阅读
    小白学大<b class='flag-5'>模型</b>:构建LLM的关键步骤

    什么是大模型、大模型是怎么训练出来的及大模型作用

    ,基础模型。   大模型简称,完整的叫法,应该是“人工智能预训练模型”。预
    的头像 发表于 11-25 09:29 6015次阅读
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

    如何训练自己的LLM模型

    训练自己的大型语言模型(LLM)是复杂且资源密集的过程,涉及到大量的数据、计算资源和专业知识。以下是
    的头像 发表于 11-08 09:30 914次阅读

    如何训练自己的AI大模型

    训练自己的AI大模型复杂且耗时的过程,涉及多个关键步骤。以下是详细的
    的头像 发表于 10-23 15:07 3286次阅读

    语言模型的预训练

    随着人工智能技术的飞速发展,自然语言处理(NLP)作为人工智能领域的重要分支,取得了显著的进步。其中,大语言模型(Large Langu
    的头像 发表于 07-11 10:11 577次阅读

    llm模型训练般用什么系统

    LLM(Large Language Model,大型语言模型)是近年来在自然语言处理领域取得显著成果的种深度学习模型。它通常
    的头像 发表于 07-09 10:02 532次阅读

    tensorflow简单的模型训练

    TensorFlow开始,然后介绍如何构建和训练简单的神经网络模型。 1. 安装TensorFlow 首先,我们
    的头像 发表于 07-05 09:38 808次阅读

    语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的应用

    类任务上表现出色,甚至在样本条件下也能取得良好效果。另类则需要逐步推理才能完成的任务,类似于人类的系统2,如数字推理等。然而,随着参数量的增加,大语言
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的预训练

    训练数据时,数量、质量和多样性三者缺不可。 数据的多样性对于大语言模型至关重要,这主要体现在数据的类别和来源两方面。丰富的数据类别能够
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    就无法修改,因此难以灵活应用于下游文本的挖掘中。 词嵌入表示:将每个词映射为低维稠密的实值向量。不同的是,基于预训练的词嵌入表示先在语料库中利用某种语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心技术综述

    的具体需求,这通常需要较少量的标注数据。 多任务学习和迁移学习: LLMs利用在预训练中积累的知识,可以通过迁移学习在相关任务上快速适应,有时还可以在
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本,为故事创作等提供无限可能。大语言模型也面临挑战。方面,其计算资源需求巨大,训练和推理耗时;另
    发表于 05-04 23:55