Hugging Face大语言模型优化技术-电子发烧友网

大语言模型的生产部署存在两个主要的挑战，一个是需要大量的参数，一个是需要处理非常长的用于表示上下文信息的输入序列。Hugging Face 基于他们提供大模型服务的经验分享了一些克服这些障碍的技术。

Patrick von Platen 在文中介绍的 Hugging Face 研究的三种技术是降低数值精度、使用一种叫作 Flash Attention 的注意力算法，以及使用专门的推理架构。

大语言模型需要大量的 VRAM 来加载，从几十 (bigcode/starcoder) 到数百 GB (Llama、Bloom、GPT3)。第一个优化手段是从 float32 切换到 bfloat16 精度：

现在几乎所有的模型都是基于 bfloat16 训练的，如果你的 GPU 支持 bfloat16，就没有理由基于全 float32 精度运行模型。float32 不会给出比训练模型所使用的精度更好的推理结果。

这可以使总体内存消耗减少一半，但可惜的是，在许多情况下仍然需要很大的内存。一种更激进的方法是将模型权重量化为 8 位或 4 位，这已经被证明不会导致显著的性能下降。

量化对于文本生成来说特别有效，因为我们所关心的是选择最有可能的下一个标记集合，而不是下一个标记 Logit 分布的确切值。

这将进一步减少所需的内存，使得在只有 16GB VRAM 的 GPU 上运行较小的模型成为可能，尽管代价是推理时间稍长。

von Platen 写道，使用 Flash Attention 是另一相关键的优化，它是大语言模型用来理解输入标记上下文关系的自注意力层的一种算法，有可能打破输入标记数量的二次增长。

因为该算法太过复杂，无法在这里描述，但可以这么说，它利用了 softmax 规范化统计数据和一些数学手段，在只需要随输入标记线性增长的内存的情况下提供相同的输出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在实践中，目前绝对没有理由不使用 Flash Attention。该算法在数学层面给出了相同的输出，并且速度更快，内存效率更高。

Here recent research can help to make the right choice with two components that quickly become bottlenecks, says von Platen,positional embeddingsand thekey-value cache.

在生产环境中部署大语言模型的第三项优化措施是选择正确的架构，让它们能够有效地处理长文本输入。von Platen 写道，最近的研究有助于我们如何对两个很快成为瓶颈的组件做出选择——一个是 _ 位置嵌入 (positional embeddings)_，一个是 _ 键值缓存 _。

位置嵌入通过将每个标记的位置编码为数字表示来帮助语言大模型理解序列顺序。对于需要处理大型文本输入任务的大语言模型，应该使用 RoPE 和 ALiBi 等相对位置嵌入技术进行训练。

RoPE 和 ALiBi 位置编码都可以外推到训练期间未遇到过的输入长度，而事实证明，与 RoPE 相比，外推对于开箱即用的 ALiBi 的效果要好得多。

目前的许多大语言模型中已经在使用这两种算法。

键值缓存可以作为对对话上下文进行编码的一种方法。键值缓存在发生每个新交互时增加一个元素，这比为每个请求编码 / 解码上下文的方法要有效得多。von Platen 详细介绍了两类键值缓存，即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵盖的内容不只有本文所概述的这些，他的文章中还提供了实际的例子来证明他的观点，所以请不要错过他的文章。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4798

浏览量
129516
语言模型

语言模型

+关注

关注
0

文章
545

浏览量
10359
大模型

大模型

+关注

关注
2

文章
2667

浏览量
3280

原文标题：Hugging Face 大语言模型优化技术

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

Hugging Face推出最小AI视觉语言模型

Hugging Face平台于1月23日发布博文，推出了两款令人瞩目的轻量级AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。其中

发表于 01-24 14:15 •448次阅读

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的一项关键技术，它指的是在已经预训练好的大型深度学习模型

发表于 01-14 16:51

如何优化自然语言处理模型的性能

优化自然语言处理（NLP）模型的性能是一个多方面的任务，涉及数据预处理、特征工程、模型选择、模型调参、模

发表于 12-05 15:30 •848次阅读

大语言模型优化生成管理方法

大语言模型的优化生成管理是一个系统工程，涉及模型架构、数据处理、内容控制、实时响应以及伦理监管等多个层面。以下，是对大语言

发表于 12-02 10:45 •164次阅读

Hugging Face科技公司推出SmolLM系列语言模型

7月22日最新资讯，Hugging Face科技公司在语言模型领域再创新高，正式推出了SmolLM系列——一款专为适应多样计算资源而设计的紧凑型语言

发表于 07-23 16:35 •411次阅读

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

的大语言模型设计技术人员阅读，主要包括大语言模型的优化方法、Agent系统调优以及

发表于 07-21 13:35

亚马逊云携手AI新创企业Hugging Face，提升AI模型在定制芯片计算性能

Hugging Face作为一家估值为45亿美元的公司现已成为了众多AI研究员和开发者分享Chatbot和相关软件的核心平台，受到亚马逊、谷歌、英伟达等巨头的青睐。

发表于 05-23 14:24 •466次阅读

Hugging Face提供1000万美元免费共享GPU

全球最大的开源AI社区Hugging Face近日宣布，将提供价值1000万美元的免费共享GPU资源，以支持开发者创造新的AI技术。这一举措旨在帮助小型开发者、研究人员和初创公司，对抗大型AI公司的市场垄断，推动AI领域的公平竞

发表于 05-20 09:40 •732次阅读

Hugging Face推出开源机器人代码库LeRobot

AI领域的佼佼者Hugging Face近日宣布重磅推出并全面开源其机器人工具包——LeRobot。这一创新工具包基于史上最大规模的众包机器人数据集，为开发者提供了一个前所未有的平台。

发表于 05-09 10:32 •665次阅读

【大语言模型：原理与工程实践】大语言模型的应用

实际应用前需解决的挑战。为提升大语言模型的性能，高级的提示词技术可以促进大语言模型与环境进行动态交互，引导其生成和推理规划。检索增强生成

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的评测

的不同语言种类以及在每种语言上的表现。代码类评测任务：是衡量大语言模型性能的核心指标之一，其不仅具有广泛的技术应用潜力，还是区分不同大

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的基础技术

全面剖析大语言模型的核心技术与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

我也不打算把网上相关的信息在总结一下，这样的话，工作量很大。我主要看了-大语言模型基础技术这节大语言模型（Large Language

发表于 05-05 10:56

【大语言模型：原理与工程实践】揭开大语言模型的面纱

大语言模型（LLM）是人工智能领域的尖端技术，凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习，利用神经网络框架来理解和生成自然语

发表于 05-04 23:55

ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM，助力开发者运用生成式 AI 构建企业应用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日发布 StarCoder2，其为一系列用于代码生成的开放获取大语言

发表于 02-29 11:12 •278次阅读

搜索历史

Hugging Face大语言模型优化技术

评论

Hugging Face推出最小AI视觉语言模型

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

如何优化自然语言处理模型的性能

大语言模型优化生成管理方法

Hugging Face科技公司推出SmolLM系列语言模型

【《大语言模型应用指南》阅读体验】+ 俯瞰全书

亚马逊云携手AI新创企业Hugging Face，提升AI模型在定制芯片计算性能

Hugging Face提供1000万美元免费共享GPU

Hugging Face推出开源机器人代码库LeRobot

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】核心技术综述

【大语言模型：原理与工程实践】揭开大语言模型的面纱

ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM，助力开发者运用生成式 AI 构建企业应用