Medusa如何加速大型语言模型（LLM）的生成？

作者：Winnie

今天为大家介绍一个新技术—Medusa，它旨在加速大型语言模型（LLM）的生成。尽管其设计简单，但 Medusa能够将LLM的生成效率提高约2倍。让我们看看它是怎么做到的吧！

为什么LLM生成低效？

LLM在生成时的效率问题主要是由内存读/写操作带来的延迟，而这个问题源自自动回归解码过程的顺序性特点。每次的前向传播都需要频繁地移动模型参数，尽管这只产生一个结果，但却没有完全利用现代硬件的计算潜能。传统的解决方式（如增大批次大小）在LLM的场景下却不再适用，因为这不仅会增加延迟，还会引发内存问题。

不仅如此，这种低效还带来了额外的生成成本。例如，GPT-4的生成成本比仅仅处理prompt高了两倍，Claude2则大约高出3倍。因此，加速LLM的低效生成是一个亟待解决的问题。

Medusa来了！

面对推测性解码的复杂性，研究人员推出了Medusa技术，这个框架回归了Transformer模型的本质，减少了复杂度，增强了效率，让每个生成阶段都能快速产出结果。当将Medusa与基于树的注意机制结合时，生成速度提高了2到3倍。

接下来，让我们看一看Msdusa都做了哪些改进吧！

Medusa总体框架

Medusa的核心在于它在LLM的最后隐藏层上增加的多个Heads，使它们并行工作，预测接下来的内容。

当将Medusa Heads加入模型时，你会发现，原始模型保持不变，而只有这些Medusa Heads进行微调。在真正使用时，每个Medusa Head都会为其位置产生预测，这些预测会被组合、处理，最终给出最佳结果。

通过同时接受更多的tokens来增强解码过程的效率，从而减少了所需的解码步骤数量。

Medusa Heads

Medusa Heads与原有的语言模型头相似，但却拥有一个独特的优势：它们可以预测多个即将出现的token，而不仅仅是下一个。这种方法从Blockwise Parallel Decoding方法中汲取灵感，将每个Medusa头设计为一个单层的前馈网络，且增强了残差连接。

训练这些Medusa Heads非常方便！你可以使用用于训练原始模型的同一语料库，或者使用模型本身生成一个新的语料库来训练它们。在训练阶段，原始的模型保持静态，仅Medusa Heads进行微调。这种有针对性的训练产生了一个参数效率极高的过程，可以迅速实现收敛—尤其是与speculative decoding方法中训练单独的draft model的计算密集度相比。

Medusa Heads的表现相当出色，它在预测“下一个”token时的top-1准确率约为60%。但这仅仅是个开始，它还有很大的提升空间。

Tree attention

通过Medusa Heads的测试，研究人员发现：虽然预测“下下一个”token的top-1准确率仅约为60%，但top-5准确率却飙升至超过80%。这一显著的提高表明，如果我们可以巧妙地利用Medusa Heads做出的多个top排名预测，就可以显著增加每个解码步骤生成的tokens数量。

实现这一目标的方式是首先构造一个候选集，这个集合由每个Medusa Head的预测结果的笛卡尔积形成。然后，依赖图被编码到注意力机制中，允许多个候选项目并行处理，这是受到图神经网络思想的启发。例如，在一个实际应用中，可以从第一个Medusa头部获取前两个预测，从第二个头部获取前三个预测，并将它们组合成一个多层树结构。在这种结构中，一个注意力掩码被实施，仅限制注意力于一个token的前一个token，从而保持历史上下文。通过这种方式，可以同时处理多个候选项，而无需增加批次大小。

下图是Tree attention机制用于并行处理多个候选项目的一个可视化示例。在一个示例中，来自第一个Medusa头部的前两个预测和来自第二个头部的前三个预测产生了2*3=6个候选项。这些候选项中的每一个都对应于树结构中的一个不同分支。为了保证每个token只能访问其前面的token，注意力掩码，该掩码仅允许注意力从当前token流向其前面的token。位置编码的位置指数将根据这种结构进行调整。通过这种方式，可以确保历史上下文的完整性和连贯性，同时提高解码步骤的效率和准确性。

值得注意的是，与一些独立的研究相比，该方法倾向于使用简化形式的树状注意力，其中树的模式在推断期间是规则和固定的，这允许预处理树状注意力掩码，进而提高效率。通过创新这种解码方法，它不仅提供了一个新的解码路径，而且为更精确和高效的未来预测打开了新的可能性。

Typical acceptance

在早期关于投机解码的研究中，重要性采样技术用于产生与原始模型预测紧密相符的多样化输出。但随后的研究表明，随着“creativity dial”或采样温度的增加，这种方法的效率会降低。简而言之，如果一个draft model与原始模型一样优秀，理论上应接受其所有输出，使过程极为高效。但是重要性采样可能会在某个阶段拒绝这种方案。

实际上，人们常常仅调整采样温度来控制模型的创造力，而不是严格匹配原始模型的分布。那么为什么不只是接受看似合理的候选项呢？Typical acceptance策略受到截断采样的启发，目的是选取根据原始模型被视为足够可能的候选项。通过设置基于原始模型预测概率的阈值，如果候选项超过这个阈值，则将其接受。

在技术语言中，我们采用硬阈值和依赖于熵的阈值中的最小值来决定是否接受一个候选项，如截断采样中所做。这确保在解码期间选择了有意义的标记和合理的延续。第一个标记总是通过贪婪解码被接受，确保每一步至少生成一个标记。最终输出是通过接受测试的最长序列。这种方法的优点在于其适应性。如果将采样温度设置为零，它将简单地退化为最有效的形式——贪婪解码。提高温度会使方法变得更加高效，允许更长的接受序列，这一点已通过严格测试得到验证。

性能测试

在Vicuna模型上测试了Medusa，这些模型是特别为聊天应用优化和调整的羊驼模型，其大小不同，参数数量分别为7B、13B和33B。目标是衡量Medusa在现实世界的聊天机器人环境中能够多大程度上加速这些模型的运行。

训练Medusa头部选择了简单的方式，使用了公开的ShareGPT数据集，这是最初用于训练Vicuna模型的数据的一个子集，只进行了一个时代的训练。

这里的重点是——整个训练过程可以在几小时到一天之内完成，具体取决于模型的大小，全部在单个A100-80G GPU上完成。显著的是，Medusa可以与量化基模型轻松结合，从而减少内存需求。为了利用这一优势，在训练33B模型时使用了8位量化。

为模拟现实环境，采用了MT测试台进行评估。结果是令人鼓舞的：Medusa借助其简单的设计，在各种用例中稳定实现了约2倍的实际运行时间加速。显著的是，有了Medusa的优化，33B参数的Vicuna模型可以与13B模型一样快速运行。

结语

Medusa技术致力于通过多层头部预测方法来加速LLM的语言生成速度。该研究中引入了多个Medusa头和Tree attention机制，通过预测多个即将出现的标记而非一个来优化生成速度，同时还保持了高准确率。此外，研究还提出了Typical acceptance方案，它基于原始模型的预测概率来选择候选项，而不是依赖重要性抽样，使得创意输出更为高效和自适应。

在实际测试中，Medusa成功地将Vicuna模型的运行速度提高了大约两倍，证明了其在现实世界的聊天机器人环境中的实用性和效果。整体来看，Medusa为开发更快、更有效的聊天机器人开辟了新的可能，显示出在语言模型生成领域的巨大潜力。

编辑：黄飞

阅读全文

神经网络(98386) 神经网络(98386)
语言模型(9992) 语言模型(9992)
LLM(229) LLM(229)

突破边界：高性能计算引领LLM驶向通用人工智能AGI的创新纪元

ChatGPT的成功带动整个AIGC产业的发展，尤其是LLM（大型语言模型，大语言模型）、NLP、高性能计算和深度学习等领域。LLM的发展将为全球和中国AI芯片、AI服务器市场的增长提供强劲动力，据估算，LLM将为全球和中国AI服务器带来约891.2亿美元和338.2亿美元的市场空间。

2023-06-25 14:31:15

575

大型语言模型在关键任务和实际应用中的挑战

大型语言模型的出现极大地推动了自然语言处理领域的进步，但同时也存在一些局限性，比如模型可能会产生看似合理但实际上是错误或虚假的内容，这一现象被称为幻觉（hallucination）。幻觉的存在使得

2023-08-15 09:33:45

1090

低比特量化技术如何帮助LLM提升性能

针对大语言模型 (LLM) 在部署过程中的性能需求，低比特量化技术一直是优化效果最佳的方案之一，本文将探讨低比特量化技术如何帮助 LLM 提升性能，以及新版 OpenVINO 对于低比特量化技术的支持。

2023-12-08 15:26:45

554

探索高效的大型语言模型！大型语言模型的高效学习方法

在大型语言模型（LLMs）的应用中，提示工程（Prompt Engineering）是一种关键技术，用于引导模型生成特定输出或执行特定任务。通过精心设计的提示，可以显著提高LLMs的性能和适用性。本文将介绍提示工程的主要方法和技巧，包括少样本提示、提示压缩和提示生成。

2023-12-13 14:21:47

274

使用基于Transformers的API在CPU上实现LLM高效推理

英特尔 Extension for Transformers是英特尔推出的一个创新工具包，可基于英特尔架构平台，尤其是第四代英特尔至强可扩展处理器（代号 SapphireRapids，SPR）显著加速基于Transformers的大语言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

NVIDIA 推出大型语言模型云服务以推进 AI 和数字生物学的发展

NVIDIA NeMo 大型语言模型（LLM）服务帮助开发者定制大规模语言模型；NVIDIA BioNeMo 服务帮助研究人员生成和预测分子、蛋白质及 DNA 美国加利福尼亚州圣克拉拉

2022-09-21 15:24:52

434

2023年科技圈热词“大语言模型”，与自然语言处理有何关系

电子发烧友网报道（文/李弯弯）大语言模型（LLM）是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译

2024-01-02 09:28:33

1267

LuxStudio增材制造晶格模型自动生成平台

LuxStudio增材制造晶格模型自动生成平台｜LuxCreo目前，市面上大多数的晶格设计软件几乎都有局限性，比如晶格种类过少、生成的晶胞质量本身有问题、效果不理想，另外软件操作门槛较高等，种种弊端

2022-11-09 10:43:02

Medusa登录暴力工具

./oschina_soft/medusa.zip

2022-05-20 09:17:05

NVIDIA NeMo最新语言模型服务帮助开发者定制大规模语言模型

NVIDIA NeMo 大型语言模型（LLM）服务帮助开发者定制大规模语言模型；NVIDIA BioNeMo 服务帮助研究人员生成和预测分子、蛋白质及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平台训练大型语言模型

韩国先进的移动运营商构建包含数百亿个参数的大型语言模型，并使用 NVIDIA DGX SuperPOD 平台和 NeMo Megatron 框架训练该模型。

2022-09-27 09:24:30

915

NVIDIA AI平台为大型语言模型带来巨大收益

随着大型语言模型（ LLM ）的规模和复杂性不断增长， NVIDIA 今天宣布更新 NeMo Megatron 框架，提供高达 30% 的训练速度。

2022-10-10 15:39:42

644

基于用于自然语言生成的“语境调优”技术

自然语言生成（又称为文本生成）旨在基于输入数据用人类语言生成合理且可读的文本。随着预训练语言模型的发展，GPT-3，BART等模型逐渐成为了生成任务的主流模型。近年来，为了利用预训练阶段编码的丰富知识，提示学习成为了一个简单而强大的方法。

2022-10-14 15:38:43

762

基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

。这一联合团队的研究指出，经过基因组学训练的大型语言模型（LLM）可将应用扩展到大量基因组学任务。该团队使用 NVIDIA 的超级计算机 Cambridge-1 来训练参数规模从 500M 到 2.5B 不等的各种大型语言模型（LLM）。这些模型在各种基因组数据集上进行了训练，以探

2023-01-17 01:05:04

444

支持Python和Java的BigCode开源轻量级语言模型

BigCode 是一个开放的科学合作组织，致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型，该模型拥有 11 亿个参数

2023-01-17 14:29:53

692

介绍一种基于Transformer的大语言模型

大模型的研究者和大公司出于不同的动机站位 LLM，研究者出于对 LLM 的突现能力 (emergent ability) 的好奇和对 LLM 对 NLP 领域能力边界的拓展、而大公司可能更多出自于商业利益考量；

2023-02-21 18:05:10

940

SOTA生成式模型：9大类别21个模型合集

过去的两年时间里，AI界的大型生成模型发布呈井喷之势，尤其是Stable Diffusion开源和ChatGPT开放接口后，更加激发了业界对生成式模型的热情。

2023-02-23 11:22:38

778

大型语言模型有哪些用途？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下，可用于解决总结文章、编写故事和参与长对话等多种繁重工作。大型语言模型（LLM）是一种深度学习算法，可以

2023-02-23 19:50:04

3887

大型语言模型有哪些用途？大型语言模型如何运作呢？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。

2023-03-08 13:57:00

6989

NVIDIA 为全球企业带来生成式 AI 推出用于创建大型语言模型和视觉模型的云服务

和运行自定义大型语言模型和生成式AI模型，这些模型专为企业所在领域的特定任务而创建，并且在专有数据上训练。 Getty Images、Morningstar、Quantiphi、Shutterstock公

2023-03-22 13:45:40

261

GTC23 | NVIDIA 为全球企业带来生成式 AI，推出用于创建大型语言模型和视觉模型的云服务

能够构建、完善和运行自定义大型语言模型和生成式 AI 模型，这些模型专为企业所在领域的特定任务而创建，并且在专有数据上训练。 Getty Images、Morningstar、Quantiphi、Shutterst

2023-03-23 06:50:04

365

GTC23 | NVIDIA 发布大型语言模型和生成式 AI 服务以推动生命科学研发

年 3 月 21 日 – NVIDIA 今日推出一整套用于自定义 AI 基础模型的生成式 AI 云服务。这些服务将加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学等领域的研究。作为

2023-03-23 06:55:03

328

GTC23 | NVIDIA 为全球企业带来生成式 AI，推出用于创建大型语言模型和视觉模型的云服务

2023-03-25 15:20:04

285

大型语言模型综述全新出炉！从T5到GPT-4最全盘点

LLM 的涌现能力被正式定义为「在小型模型中不存在但在大型模型中出现的能力」，这是 LLM 与以前的 PLM 区分开来的最显著特征之一。当出现这种新的能力时，它还引入了一个显著的特征：当规模达到一定水平时，性能显著高于随机的状态。

2023-04-04 14:16:28

870

获取大语言模型（LLM）核心开发技能，报名 NVIDIA DLI 实战培训

ChatGPT 的诞生，带来了 AI 产业的 “iPhone 时刻”，其成功背后大语言模型（Large Language Model，LLM）的商业价值正逐步被揭示和成为现实。随着 LLM 技术

2023-04-05 00:25:03

416

各种大语言模型是彻底被解封了

基础 LLM 基本信息表，GPT-style 表示 decoder-only 的自回归语言模型，T5-style 表示 encoder-decoder 的语言模型，GLM-style 表示 GLM 特殊的模型结构，Multi-task 是指 ERNIE 3.0 的模型结构

2023-04-20 11:25:44

1071

一套开源的大型语言模型（LLM）—— StableLM

对于任何没有额外微调和强化学习的预训练大型语言模型来说，用户得到的回应质量可能参差不齐，并且可能包括冒犯性的语言和观点。这有望随着规模、更好的数据、社区反馈和优化而得到改善。

2023-04-24 10:07:06

2168

利用大语言模型做多模态任务

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

2023-05-10 16:53:15

701

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此，现阶段，如何利用LLM做一些多模态任务还是有一定的研究价值的。

2023-05-11 17:09:16

648

大语言模型的多语言机器翻译能力分析

以ChatGPT为代表的大语言模型（Large Language Models, LLM）在机器翻译（Machine Translation, MT）任务上展现出了惊人的潜力。

2023-05-17 09:56:26

903

邱锡鹏团队提出SpeechGPT：具有内生跨模态能力的大语言模型

虽然现有的级联方法或口语语言模型能够感知和生成语音，但仍存在一些限制。首先，在级联模型中，LLM 仅充当内容生成器。由于语音和文本的表示没有对齐，LLM 的知识无法迁移到语音模态中。

2023-05-22 10:19:29

382

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言模型，如 GPT-4、PALM-E 和 LLaVA，已经探索了 LLM 理解多模态信息的能力。然而，当前

2023-05-22 14:38:06

417

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口

2023-05-22 15:57:33

466

大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息

确实能学习和表示文本的意义。虽然大型预训练语言模型（LLM）在一系列下游任务中展现出飞速提升的性能，但它们是否真的理解其使用和生成的文本语义？长期以来，AI社区对这一问题存在很大的分歧。有一种猜测是，纯粹基于语言的形式（例

2023-05-25 11:34:11

434

微软将向美国政府客户提供OpenAI的GPT模型

微软增加了对大型语言模型（llm）的支持。openai推出chatgpt后，llm的使用大幅增加，微软持有openai的股份，许多类型的公司争相在llm上构建功能。

2023-06-08 10:35:43

759

浅析AI大型语言模型研究的发展历程

大型语言模型研究的发展有三条技术路线：Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是 GPT 技术路线，直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。

2023-06-09 12:34:53

3162

大型语言模型（LLM）的自定义训练：包含代码示例的详细指南

近年来，像 GPT-4 这样的大型语言模型（LLM）因其在自然语言理解和生成方面的惊人能力而受到广泛关注。但是，要根据特定任务或领域定制LLM，定制培训是必要的。本文提供了有关自定义训练 LLM 的详细分步指南，其中包含代码示例和示例。

2023-06-12 09:35:43

1782

GPT总设计师：大型语言模型的未来

他预计，深度学习和大型语言模型会继续发展：这个领域的未来可能会有一小部分重大突破，加之许多细微改进，所有这些都将融入到一个庞大而复杂的工程体系。他还给出了一些有趣、可执行的思想实验。

2023-06-12 16:38:48

262

Macaw-LLM：具有图像、音频、视频和文本集成的多模态语言建模

尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力，但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中，我们提出了 Macaw-LLM，一种新颖的多模式 LLM，它无缝集成了视觉、音频和文本信息。

2023-06-19 10:35:33

876

基准数据集(CORR2CAUSE)如何测试大语言模型(LLM)的纯因果推理能力

因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣，但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM

2023-06-20 15:39:05

1223

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠性和可解释性。随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部

2023-06-25 15:08:49

991

大型语言模型的应用

大型语言模型（LLM）是一种深度学习算法，可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言模型（LLM）代表着 AI 领域的重大进步，并有望通过习得的知识改变

2023-07-05 10:27:35

1463

大模型、预训练对汽车行业的影响 AI加速芯片恐失去市场

大模型最初叫Large languagemodel，LLM，即大规模语言模型，其没有准确的定义，在2018年一般定义为参数达到数十亿以上的模型。

2023-07-05 11:08:07

427

最新综述！当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

LLM 是黑箱模型，缺乏可解释性，因此备受批评。LLM 通过参数隐含地表示知识。因此，我们难以解释和验证 LLM 获得的知识。此外，LLM 是通过概率模型执行推理，而这是一个非决断性的过程。对于 LLM 用以得出预测结果和决策的具体模式和功能，人类难以直接获得详情和解释。

2023-07-10 11:35:00

1354

机器人接入大模型直接听懂人话，日常操作轻松完成！

接着，LLM（大语言模型）根据这些内容编写代码，所生成代码与VLM（视觉语言模型）进行交互，指导系统生成相应的操作指示地图，即3D Value Map。

2023-07-11 14:31:01

587

语言模型的发展历程基于神经网络的语言模型解析

简单来说，语言模型能够以某种方式生成文本。它的应用十分广泛，例如，可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上，语言模型的潜力远超以上常见任务。

2023-07-14 11:45:40

454

基于MNN在个人设备上流畅运行大语言模型该如何实现呢？

LLM（大语言模型）因其强大的语言理解能力赢得了众多用户的青睐，但LLM庞大规模的参数导致其部署条件苛刻；

2023-07-20 10:49:29

655

2023年发布的25个开源大型语言模型总结

来源： DeepHub IMBA 大型语言模型(llm)是一种人工智能(AI)，在大量文本和代码数据集上进行训练。它们可以用于各种任务，包括生成文本、翻译语言和编写不同类型的创意内容。今年开始

2023-07-28 12:20:02

440

ToolLLM：促进大型语言模型掌握16000+真实世界的APIs

尽管开源大语言模型 (LLM) 及其变体（例如 LLaMA 和 Vicuna）取得了进步，但它们在执行更高级别的任务方面仍然受到很大限制，例如遵循人类指令使用外部工具 (API)。

2023-08-02 16:27:52

535

ChatGPT等大型语言模型的出现会带来哪些风险

近日，美智库兰德公司高级工程师克里斯托弗·莫顿(Christopher Mouton)在C4ISRNET网站撰文，分析ChatGPT等大型语言模型的出现给国家安全带来的新风险。主要观点如下：

2023-08-04 11:44:53

304

NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

NVIDIA DGX Cloud 集成到 Hugging Face 平台将加速大语言模型（LLM）的训练和调优，简化了几乎每个行业的模型定制洛杉矶 — SIGGRAPH — 2023

2023-08-09 11:41:59

100

NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

NVIDIA DGX Cloud 集成到 Hugging Face 平台将加速大语言模型（LLM）的训练和调优，简化了几乎每个行业的模型定制

2023-08-09 11:38:24

653

2023年发布的25个开源大型语言模型总结

大型语言模型(llm)是一种人工智能(AI)，在大量文本和代码数据集上进行训练。它们可以用于各种任务，包括生成文本、翻译语言和编写不同类型的创意内容。今年开始，人们对开源LLM越来越感兴趣。这些模型

2023-08-01 00:21:27

554

清华大学大语言模型综合性能评估报告发布！哪个模型更优秀？

近日，清华大学新闻与传播学院发布了《大语言模型综合性能评估报告》，该报告对目前市场上的7个大型语言模型进行了全面的综合评估。近年，大语言模型以其强大的自然语言处理能力，成为AI领域的一大热点。它们

2023-08-10 08:32:01

607

MediaTek运用Meta Llama 2大语言模型，赋能终端设备生成式AI应用

2023 年 8 月 24 日 – MediaTek今日宣布利用Meta新一代开源大语言模型（LLM）Llama 2 以及MediaTek先进的AI处理器（APU）和完整的AI开发平台

2023-08-24 13:41:03

225

Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

今天，Meta发布了Code Llama，一款可以使用文本提示生成代码的大型语言模型（LLM）。

2023-08-25 09:06:57

885

如何使用加速PyTorrch2.0变异器

加快大型语言模型与加速变形金刚

2023-09-04 16:15:12

281

如何加速生成2 PyTorch扩散模型

加速生成2 PyTorch扩散模型

2023-09-04 16:09:08

782

FPGA加速语言模型如何重塑生成式人工智能

大语言模型的构建通常需要一个大规模的系统来执行该模型，这个模型会持续变大，在其发展到一定程度后，仅靠在CPU上的运行就不再具有成本、功耗或延迟的优势了。

2023-08-31 15:34:36

505

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些模型带来的硬件挑战，以及GPU和网络行业如何针对训练的工作负载不断优化硬件。

2023-09-01 17:14:56

1046

FPGA加速器支撑ChatGPT类大语言模型创新

，大型语言模型（Large Language Models，LLM）彻底改变了自然语言处理领域，使机器能够生成类似人类的文本并进行有意义的对话。这些模型，例如OpenAI的GPT，拥有惊人的语言理解和生成能力。它们可以被用于广泛的自然语言处理任务，包括文本生成、翻译、自动摘要、情绪分析等

2023-09-04 16:55:25

345

虹科分享 | 谷歌Vertex AI平台使用Redis搭建大语言模型

基础模型和高性能数据层这两个基本组件始终是创建高效、可扩展语言模型应用的关键，利用Redis搭建大语言模型，能够实现高效可扩展的语义搜索、检索增强生成、LLM 缓存机制、LLM记忆和持久

2023-09-18 11:26:49

316

大语言模型（LLM）预训练数据集调研分析

大语言模型涉及数据的通常有有多个阶段（Aligning language models to follow instructions [1] ）：pre-train、sft（supervised

2023-09-19 10:00:06

506

从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM

要理解大语言模型（LLM），首先要理解它的本质，无论预训练、微调还是在推理阶段，核心都是next token prediction，也就是以自回归的方式从左到右逐步生成文本。

2023-09-19 16:25:47

519

mlc-llm对大模型推理的流程及优化方案

在 MLC-LLM 部署RWKV World系列模型实战（3B模型Mac M2解码可达26tokens/s）中提到要使用mlc-llm部署模型首先需要一个编译过程，将原始的基于Realx搭建的模型

2023-09-26 12:25:55

383

SambaNova即将建立并运行自己的大型语言模型

随着各大公司争相加入人工智能的潮流，芯片和人才供不应求。初创公司SambaNova（https://sambanova.ai/）声称，其新处理器可以帮助公司在几天内建立并运行自己的大型语言模型

2023-09-27 16:10:51

305

怎样使用FHE实现加密大语言模型？

近来，大语言模型 (LLM) 已被证明是提高编程、内容生成、文本分析、网络搜索及远程学习等诸多领域生产力的可靠工具。

2023-10-19 09:13:57

410

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会，将帮助您了解 NVIDIA 开源大型语言模型（LLM）推理加速库 TensorRT-LLM 及其功能

2023-10-26 09:05:02

174

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的推理性

2023-10-27 20:05:02

478

在线研讨会 | NVIDIA 加速汽车行业大语言模型的开发与应用

，与您面对面探讨汽车行业前沿趋势与未来风向标。大语言模型（LLM）的发展如火如荼，在汽车行业，LLM 可用于自动驾驶加速训练和推理、智能汽车用户界面改进、自然语言处理技术集成、车辆诊断和维护建议、市场营销和客户支持等多方面，以提高车辆性能和安全性，增

2023-10-27 20:05:02

182

知识图谱与大模型结合方法概述

；3）LLM+KG协同使用，主要用于知识表示和推理两个方面。该文综述了以上三个路线的代表性研究，探讨了未来可能的研究方向。知识图谱（KG）和大语言模型（LLM）都是知识的表示

2023-10-29 15:50:01

530

Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs，比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署12B

2023-11-01 17:48:42

422

时间序列的基础模型像自然语言处理那样存在吗

时间序列预测领域在最近的几年有着快速的发展，比如N-BEATS、N-HiTS、PatchTST和TimesNet。大型语言模型(LLM)最近在ChatGPT等应用程序中变得非常流行，因为它们可以

2023-11-03 10:15:22

279

利用 NVIDIA Jetson 实现生成式 AI

的无限可能性。不同于其他嵌入式平台，Jetson 能够在本地运行大语言模型（LLM）、视觉 Transformer 和 stable diffusion，包括在 Jetson AGX Orin

2023-11-07 21:25:01

398

基于检索的大语言模型简介

简介章节讲的是比较基础的，主要介绍了本次要介绍的概念，即检索（Retrieval）和大语言模型（LLM）

2023-11-15 14:50:36

282

如何给OriginBot安装大语言模型

包版本冲突，我没有修复也能直接运行，所以看起来问题不大 ②安装hobot-dnn sudo apt update sudo apt install -y tros-hobot-llm ③下载模型文件

2023-11-20 15:46:32

164

专栏发布 | LLM圈走马换将？微软广告“黑五”来袭！

过去一年并不平凡。从去年11月至今，LLM大型语言模型持续破圈、始终盘踞热点话题之列。根据Adobe Analytics的最新在线购物预测，感恩节本土市场假日季的在线收入，或将有

2023-11-27 08:15:02

215

Long-Context下LLM模型架构全面介绍

随着ChatGPT的快速发展，基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路，并已应用于知识库、人机界面和动态代理等不同领域。然而，存在一个普遍

2023-11-27 17:37:36

440

NVIDIA 为部分大型亚马逊 Titan 基础模型提供训练支持

本文将介绍亚马逊如何使用 NVIDIA NeMo 框架、GPU 以及亚马逊云科技的 EFA 来训练其最大的新一代大语言模型（LLM）。大语言模型的一切都很庞大——巨型模型是在数千颗 NVIDIA

2023-11-29 21:15:02

295

怎样使用Accelerate库在多GPU上进行LLM推理呢？

大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些模型在规模和复杂性上的增长，推理的计算需求也显著增加。

2023-12-01 10:24:52

396

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型指的是具有数十亿参数（B+）的预训练语言模型（例如：GPT-3, Bloom, LLaMA)。这种模型可以用于各种自然语言处理任务，如文本生成、机器翻译和自然语言理解等。

2023-12-04 15:51:46

356

如何利用OpenVINO加速LangChain中LLM任务

LangChain 是一个高层级的开源的框架，从字面意义理解，LangChain 可以被用来构建 “语言处理任务的链条”，它可以让AI开发人员把大型语言模型（LLM）的能力和外部数据结合起来，从而

2023-12-05 09:58:14

325

全面解析大语言模型（LLM）

internal feedback：使用LLM去预测生成的plan取得成功的概率、Tree of Thought去对比不同的plan（有点类似AlphaGo的蒙特卡诺搜索的意思）、对中间结果进行评估并作为长期记忆存储

2023-12-05 14:49:47

857

大规模语言模型的基本概念、发展历程和构建流程

大规模语言模型（Large Language Models，LLM），也称大规模语言模型或大型语言模型，是一种由包含数百亿以上参数的深度神经网络构建的语言模型，使用自监督学习方法通过大量无标注

2023-12-07 11:40:43

1141

大语言模型概述

的人工智能模型，旨在理解和生成自然语言文本。这类模型的核心是深度神经网络，通过大规模的训练数据和强大的计算能力，使得模型能够学习到语言的语法、语境和语义等多层次的信息。大语言模型的发展历史可以追溯到深度学习的

2023-12-21 17:53:59

555

一文详解LLM模型基本架构

LLM 中非常重要的一个概念是 Token，我们输入给 LLM 和它输出的都是 Token。Token 在这里可以看做语言的基本单位，中文一般是词或字（其实字也是词）。比如：”我们喜欢 Rust

2023-12-25 10:38:38

657

优于10倍参数模型！微软发布Orca 2 LLM

微软发布 Orca 2 LLM，这是 Llama 2 的一个调优版本，性能与包含 10 倍参数的模型相当，甚至更好。

2023-12-26 14:23:16

247

大语言模型使用指南

，带你发现大语言模型的潜力，解锁无限可能。揭秘大语言模型的魔法在动手操作之前，我们先来揭秘一下大语言模型的魔法。这些模型通过大量的文本数据进行预训练，使其具备了超强的理解和生成自然语言的能力。搞懂它的构造和培训过程

2023-12-29 14:18:59

276

2023年大语言模型(LLM)全面调研：原理、进展、领跑者、挑战、趋势

大型语言模型(LLM)是基于人工智能的先进模型，经过训练，它可以密切反映人类自然交流的方式处理和生成人类语言。这些模型利用深度学习技术和大量训练数据来全面理解语言结构、语法、上下文和语义。

2024-01-03 16:05:25

441

美国防部生成式人工智能先期发展动向分析

生成式人工智能（AI）能力，如大型语言模型（LLM）在全球的受欢迎程度、能力和影响力都在不断增长。这些能力是在大规模数据集上训练的，以便生成细节和明显连贯的内容，这在以前需要人类创作。这些能力带来了新的机遇，同时也带来了新的重大风险。

2024-01-03 16:30:55

638

大语言模型推断中的批处理效应

随着开源预训练大型语言模型（Large Language Model, LLM ）变得更加强大和开放，越来越多的开发者将大语言模型纳入到他们的项目中。其中一个关键的适应步骤是将领域特定的文档集成到预训练模型中，这被称为微调。

2024-01-04 12:32:39

228

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

近期的大语言模型（LLM）在自然语言理解和生成上展现出了接近人类的强大能力，远远优于先前的BERT等预训练模型（PLM）。

2024-01-04 14:06:39

139

安霸发布N1系列生成式AI芯片支持前端设备运行本地LLM应用

单颗 SoC 支持 1 至 340 亿参数的多模态大模型（Multi-Modal LLM）推理，实现前端低功耗生成式 AI。

2024-01-09 15:19:33

597

安霸发布全新N1系列生成式AI芯片

安霸在CES 2024上发布了全新的N1系列生成式AI芯片，这是一款专门为前端设备设计的芯片，支持本地运行大型语言模型（LLM）应用。其单颗SoC能够支持1至340亿参数的多模态大模型（Multi-Modal LLM）推理，从而实现低功耗的生成式AI功能。

2024-01-09 15:32:54

602

2023年LLM大模型研究进展

作为做LLM应用的副产品，我们提出了RLCD[11]，通过同时使用正例和负例prompt，自动生成带标签的生成样本不需人工标注，然后可以接大模型微调，或者用于训练reward models

2024-01-19 13:55:33

178

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

这个问题随着LLM规模的增大愈发严重。并且，如下左图所示，目前LLM常用的自回归解码（autoregressive decoding）在每个解码步只能生成一个token。这导致GPU计算资源利用率

2024-01-29 15:54:24

261

单芯片没有神经网络加速器NPU可以玩微型AI应用吗？

讲到AI相信大家第一时间多半是联想到大型语言模型(LLM)和生成式AI(genAI, AIGC)应用，可以对话聊天、查询数据、生成文章图像和音乐，而这些应用多半需要用到极大的云端算力才能完成。

2024-02-20 16:40:33

214

小白学大模型：什么是生成式人工智能？

和软件，我将这些程序简称为“GAIs”。革命开始第一波GAIs主要致力于进行自然语言对话。被称为“大型语言模型”（LLMs）的这些模型已经展示出在各种任务上超凡的表

2024-02-22 08:27:58

239

100%在树莓派上执行的LLM项目

ChatGPT的人性口语化回复相信许多人已体验过，也因此掀起一波大型语言模型（Large Language Model, LLM）热潮，LLM即ChatGPT背后的主运作技术，但LLM运作需要庞大运算力，因此目前多是在云端（Cloud）上执行。

2024-02-29 16:29:59

476

OpenVINO™助力谷歌大语言模型Gemma实现高速智能推理

大型语言模型（LLM）正在迅速发展，变得更加强大和高效，使人们能够在广泛的应用程序中越来越复杂地理解和生成类人文本。

2024-03-17 17:17:08

504

已全部加载完成

搜索历史

Medusa如何加速大型语言模型（LLM）的生成？

评论