只需添加几行代码，就能实现大模型的低成本训练和微调-电子发烧友网

不得不说，为了让更多人能用上大模型，技术圈真是各出奇招！

模型不够开放？有人自己上手搞免费开源版。

比如最近风靡全网的DALL·E Mini，Meta开放的OPT-175B（Open Pretrained Transformer）。

都是通过复刻的方式，让原本不够open的大模型，变成人人可用。

还有人觉得模型太大，个人玩家很难承受起天价成本。

所以提出异构内存、并行计算等方法，让大模型训练加速又降本。

比如开源项目Colossal-AI，前不久刚实现了让一块英伟达3090就能单挑180亿参数大模型。

而在这两天，他们又来了一波上新：

无缝支持Hugging Face社区模型，只需添加几行代码，就能实现大模型的低成本训练和微调。

要知道，Hugging Face作为当下最流行的AI库之一，提供了超过5万个AI模型的实现，是许多AI玩家训练大模型的首选。

而Colossal-AI这波操作，是让公开模型的训练微调变得更加切实可行。

并且在训练效果上也有提升。

单张GPU上，相比于微软的DeepSpeed，使用Colossal-AI的自动优化策略，最快能实现40%的加速。

而PyTorch等传统深度学习框架，在单张GPU上已经无法运行如此大的模型。

对于使用8张GPU的并行训练，仅需在启动命令中添加-nprocs 8就能实现。

这波下来，可以说是把个人AI玩家需要考虑的成本、效率、实操问题，都拿捏住了~

无需修改代码逻辑

光说不练假把式。

下面就以OPT为例，详细展开看看Colossal-AI的新功能到底怎么用。

OPT，全称为Open Pretrained Transformer。

它由Meta AI发布，对标GPT-3，最大参数量可达1750亿。

最大特点就是，GPT-3没有公开模型权重，而OPT开源了所有代码及权重。

因此，每一位开发者都能在此基础上开发个性化的下游任务。

下面的举例，就是根据OPT提供的预训练权重，进行因果语言模型（Casual Language Modelling）的微调。

主要分为两个步骤：

添加配置文件
运行启动

第一步，是根据想进行的任务添加配置文件。

比如在一张GPU上，以异构训练为例，只需在配置文件里加上相关配置项，并不需要更改代码的训练逻辑。

比如，tensor_placement_policy决定了异构训练的策略，参数可以为CUDA、CPU及auto。

每个策略的优点不同、适应的情况也不一样。

CUDA：将全部模型参数都放置于GPU上，适合不offload时仍然能进行训练的传统场景。

CPU：将模型参数都放置在CPU内存中，仅在GPU显存中保留当前参与计算的权重，适合超大模型的训练。

auto：根据实时的内存信息，自动决定保留在GPU显存中的参数量，这样能最大化利用GPU显存，同时减少CPU-GPU之间的数据传输。

对于普通用户来说，使用auto策略是最便捷的。

这样可以由Colossal-AI自动化地实时动态选择最佳异构策略，最大化计算效率。

 
from colossalai.zero.shard_utils import TensorShardStrategy
zero = dict(model_config=dict(shard_strategy=TensorShardStrategy(),                              tensor_placement_policy="auto"),            optimizer_config=dict(gpu_margin_mem_ratio=0.8))

第二步，是在配置文件准备好后，插入几行代码来启动新功能。

首先，通过一行代码，使用配置文件来启动Colossal-AI。

Colossal-AI会自动初始化分布式环境，读取相关配置，然后将配置里的功能自动注入到模型及优化器等组件中。

colossalai.launch_from_torch(config='./configs/colossalai_zero.py')

然后，还是像往常一样定义数据集、模型、优化器、损失函数等。

比如直接使用原生PyTorch代码，在定义模型时，只需将模型放置于ZeroInitContext下初始化即可。

在这里，使用的是Hugging Face提供的OPTForCausalLM模型以及预训练权重，在Wikitext数据集上进行微调。

with ZeroInitContext(target_device=torch.cuda.current_device(),                     shard_strategy=shard_strategy,                    shard_param=True):    model = OPTForCausalLM.from_pretrained(                'facebook/opt-1.3b'                config=config            )

接下来，只需要调用colossalai.initialize，便可将配置文件里定义的异构内存功能统一注入到训练引擎中，即可启动相应功能。

engine, train_dataloader, eval_dataloader, lr_scheduler = colossalai.initialize(model=model,                                                                               optimizer=optimizer,                                                                               criterion=criterion,                                                                               train_dataloader=train_dataloader,                                                                               test_dataloader=eval_dataloader,                                                                               lr_scheduler=lr_scheduler)

还是得靠GPU+CPU异构

而能够让用户实现如上“傻瓜式”操作的关键，还是AI系统本身要足够聪明。

发挥核心作用的是Colossal-AI系统的高效异构内存管理子系统Gemini。

它就像是系统内的一个总管，在收集好计算所需的信息后，动态分配CPU、GPU的内存使用。

具体工作原理，就是在前面几个step进行预热，收集PyTorch动态计算图中的内存消耗信息。

在预热结束后，计算一个算子前，利用收集的内存使用记录，Gemini将预留出这个算子在计算设备上所需的峰值内存，并同时从GPU显存移动一些模型张量到CPU内存。

Gemini内置的内存管理器给每个张量都标记一个状态信息，包括HOLD、COMPUTE、FREE等。

然后，根据动态查询到的内存使用情况，不断动态转换张量状态、调整张量位置。

带来的直接好处，就是能在硬件非常有限的情况下，最大化模型容量和平衡训练速度。

要知道，业界主流方法ZeRO （Zero Reduency Optimizer），尽管也利用CPU+GPU异构内存的方法，但是由于是静态划分，还是会引起系统崩溃、不必要通信量等问题。

而且，使用动态异构CPU+GPU内存的办法，还能用加内存条的办法来扩充内存。

怎么也比买高端显卡划算多了。

目前，使用Colossal-AI的方法，RTX 2060 6GB普通游戏本能训练15亿参数模型；RTX 3090 24GB主机直接单挑180亿参数大模型；Tesla V100 32GB连240亿参数都能拿下。

除了最大化利用内存外，Colossal-AI还使用分布式并行的方法，让训练速度不断提升。

它提出同时使用数据并行、流水并行、2.5维张量并行等复杂并行策略。

方法虽复杂，但上手却还是非常“傻瓜操作”，只需简单声明，就能自动实现。

无需像其他系统和框架侵入代码，手动处理复杂的底层逻辑。

parallel = dict(    pipeline=2,    tensor=dict(mode='2.5d', depth = 1, size=4))

Colossal-AI还能做什么？

实际上，自开源以来，Colossal-AI已经多次在GitHub及Papers With Code热榜位列世界第一，在技术圈小有名气。

除了如上提到的用单张GPU训练大模型外，Colossal-AI在扩展至数十张甚至数百张GPU的大规模并行场景时，相比于英伟达Megatron-LM等现有系统，性能可以翻倍，使用资源可以降低至其十分之一之下。

换算一下，在预训练GPT-3等超大AI模型上，节省的费用可以达到数百万元。

据透露，Colossal-AI相关的解决方案已经被自动驾驶、云计算、零售、医药、芯片等行业的知名厂商用上了。

与此同时，他们也非常注重开源社区建设，提供中文教程、开放用户社群论坛，根据大家的需求反馈不断更新迭代。

比如我们发现，之前有粉丝留言询问，Colossal-AI能否直接加载Hugging Face上的一些模型？

好嘛，这次更新就来了。

所以，对于大模型训练，你觉得现在还有哪些难点亟需解决呢？

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
3426

浏览量
42809
模型

模型

+关注

关注
1

文章
3378

浏览量
49334
代码

代码

+关注

关注
30

文章
4841

浏览量
69225
大模型

大模型

+关注

关注
2

文章
2677

浏览量
3293

原文标题：1块GPU+几行代码，大模型训练提速40%！无缝支持HuggingFace，来自国产开源项目

文章出处：【微信号：iotmag，微信公众号：iotmag】欢迎添加关注！文章转载请注明出处。

让大模型训练更高效，奇异摩尔用互联创新方案定义下一代AI计算

了训练成本，使得企业能够以低成本实现高性能AI大模型的训练；在推理端，DeepSeek加速了AI应用从训

发表于 02-18 09:19 •282次阅读

阿里巴巴Qwen大模型助力开发低成本DeepSeek替代方案

近日，阿里巴巴的开源Qwen2.5模型在AI领域再次展现其强大实力，为斯坦福大学与伯克利大学的研究人员提供了低成本的AI训练解决方案。借助这一技术，两所知名学府的研究团队成功开发出价格低于50美元

发表于 02-12 13:42 •367次阅读

Qwen大模型助力开发低成本AI推理方案

的S1推理模型和伯克利的TinyZero模型，均是基于阿里巴巴的Qwen2.5-32b-Instruct模型进行训练的。这一技术的运用，使得两款模型

发表于 02-12 09:19 •228次阅读

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

微调：通过在预训练模型中插入适配器模块来适应特定任务，既保留了原始模型的性能，又能快速适应新任务。Prefix-Tuning：通过在输入序列的前面添

发表于 01-14 16:51

大模型训练框架(五)之Accelerate

轻松切换不同的并行策略，同时它还支持混合精度训练，可以进一步提升训练效率。 1. 导入 Accelerate只需添加四行代码，即可在任何分布

发表于 01-14 14:24 •184次阅读

中国AI企业创新降低成本打造竞争力模型

在中国，面对美国实施的芯片限制以及相较于西方企业更为有限的预算，人工智能（AI）公司正积极寻求降低成本的方法，以开发出具有市场竞争力的模型。初创公司如01.ai（零一万物）和DeepSeek（深度求索）等，通过聚焦小数据集进行AI模型

发表于 10-22 14:56 •602次阅读

AI大模型训练成本飙升，未来三年或达千亿美元

在科技日新月异的今天，人工智能（AI）领域的发展正以前所未有的速度推进，其中，AI大模型的崛起尤为引人注目。然而，随着模型参数的持续膨胀，其背后的训练成本也呈现出惊人的增长态势。近日，AI新创公司

发表于 07-11 15:06 •790次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使模型学习到语言的通用知识，为后续的任务

发表于 07-11 10:11 •593次阅读

大模型为什么要微调？大模型微调的原理

难以达到最佳性能。为了提升模型在特定任务上的表现，微调（Fine-tuning）成为了一个关键步骤。本文将详细探讨大模型为什么要进行微调以及微调

发表于 07-10 10:43 •4955次阅读

人脸识别模型训练是什么意思

人脸识别模型训练是指通过大量的人脸数据，使用机器学习或深度学习算法，训练出一个能够识别和分类人脸的模型。这个模型可以应用于各种场景，如安防监

发表于 07-04 09:16 •785次阅读

预训练模型的基本原理和应用

训练好的模型，这些模型通常在某些通用任务上表现出色，并且可以作为后续特定任务的起点，通过迁移学习或微调（Fine-tuning）等方式进行适应和优化。以下是对预

发表于 07-03 18:20 •3290次阅读

谷歌Gemini Ultra模型训练成本近2亿美元

斯坦福大学与研究巨头Epoch AI联合揭示了云计算时代下AI模型训练成本的飞速增长。最新研究结果显示，AI巨头OpenAI的GPT-4训练成本高达7840万美元，这一数字令人咋舌。

发表于 06-07 09:36 •704次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练数据的需求也相

发表于 05-07 17:10

【大语言模型：原理与工程实践】核心技术综述

其预训练和微调，直到模型的部署和性能评估。以下是对这些技术的综述：模型架构: LLMs通常采用深层的神经网络架构，最常见的是Transformer网络，它包含多个自注意力层，能够捕

发表于 05-05 10:56

谷歌发布用于辅助编程的代码大模型CodeGemma

谷歌发布了用于辅助编程的代码大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月发布的轻量级开源大模型 Gemma，针对 Gemma 的两个不同参数规模的版本 Gemma 2B 和 Gemma 7B 发布了 Co

发表于 04-17 16:07 •796次阅读

搜索历史

只需添加几行代码，就能实现大模型的低成本训练和微调

无需修改代码逻辑

还是得靠GPU+CPU异构

Colossal-AI还能做什么？

评论

让大模型训练更高效，奇异摩尔用互联创新方案定义下一代AI计算

阿里巴巴Qwen大模型助力开发低成本DeepSeek替代方案

Qwen大模型助力开发低成本AI推理方案

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

大模型训练框架(五)之Accelerate

中国AI企业创新降低成本打造竞争力模型

AI大模型训练成本飙升，未来三年或达千亿美元

大语言模型的预训练

大模型为什么要微调？大模型微调的原理

人脸识别模型训练是什么意思

预训练模型的基本原理和应用

谷歌Gemini Ultra模型训练成本近2亿美元

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】核心技术综述

谷歌发布用于辅助编程的代码大模型CodeGemma