LLM在生成摘要方面效果到底如何？

来源：公众号机器之心授权

以后文本摘要总结任务，可以放心交给大模型了。

文本摘要，作为自然语言生成（NLG）中的一项任务，主要用来将一大段长文本压缩为简短的摘要，例如新闻文章、源代码和跨语言文本等多种内容都能用到。

随着大模型（LLM）的出现，传统的在特定数据集上进行微调的方法已经不在适用。

我们不禁会问，LLM 在生成摘要方面效果到底如何？

为了回答这一问题，来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务（单条新闻、多条新闻、对话、源代码和跨语言摘要）上的表现。

在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现，由 LLM 生成的摘要明显受到人类评估者的青睐。

接着该研究在对过去 3 年发表在 ACL、EMNLP、NAACL 和 COLING 上的 100 篇与摘要方法相关的论文进行抽样和检查后，他们发现大约 70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此，本文表示「摘要（几乎）已死（ Summarization is (Almost) Dead ）」。

尽管如此，研究者表示该领域仍然存在挑战，例如需要更高质量的参考数据集、改进评估方法等还需要解决。

方法及结果

该研究使用最新的数据来构建数据集，每个数据集由 50 个样本组成。

例如在执行单条新闻、多条新闻和对话摘要任务时，本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务，其策略与 Zhu 等人提出的方法一致。关于代码摘要任务，本文采用 Bahrami 等人提出的方法。

数据集构建完成之后，接下来就是方法了。具体来说，针对单条新闻任务本文采用 BART 和 T5 ；多条新闻任务采用 Pegasus 和 BART；T5 和 BART 用于对话任务；跨语言任务使用 MT5 和 MBART ；源代码任务使用 Codet5 。

实验中，该研究聘请人类评估员来比较不同摘要的整体质量。结果如图 1 所示，LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

这就提出了一个问题：为什么 LLM 能够胜过人类撰写的摘要，而传统上人们认为这些摘要是完美无缺的。此外，经过初步的观察表明，LLM 生成的摘要表现出高度的流畅性和连贯性。

本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题，结果如表 1 所示，与 GPT-4 生成的摘要相比，人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中，人工编写的摘要表现出明显较差的事实一致性。

人工撰写的摘要和 GPT-4 生成摘要中出现幻觉的比例，如表 2 所示：

本文还发现人工编写的参考摘要存在这样一个问题，即缺乏流畅性。如图 2 (a) 所示，人工编写的参考摘要有时存在信息不完整的缺陷。并且在图 2 (b) 中，一些由人工编写的参考摘要会出现幻觉。

本文还发现微调模型生成的摘要往往具有固定且严格的长度，而 LLM 能够根据输入信息调整输出长度。此外，当输入包含多个主题时，微调模型生成的摘要对主题的覆盖率较低，如图 3 所示，而 LLM 在生成摘要时能够捕获所有主题：

由图 4 可得，人类对大模型的偏好分数超过 50%，表明人们对其摘要有强烈的偏好，并凸显了 LLM 在文本摘要方面的能力：

　　审核编辑：汤梓红

阅读全文

源代码(69847) 源代码(69847)
GPT(16772) GPT(16772)
大模型(5063) 大模型(5063)
LLM(1284) LLM(1284)

对比解码在LLM上的应用

为了改进LLM的推理能力，University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明，所提方法能有效改进LLM的推理能力。让我们走进论文一探究竟吧！

2023-09-21 11:37:55

1181

低比特量化技术如何帮助LLM提升性能

针对大语言模型 (LLM) 在部署过程中的性能需求，低比特量化技术一直是优化效果最佳的方案之一，本文将探讨低比特量化技术如何帮助 LLM 提升性能，以及新版 OpenVINO 对于低比特量化技术的支持。

2023-12-08 15:26:45

2273

使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

针对基于 Diffusion 和 LLM 类别的 TTS 模型，NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。在单张 NVIDIA Ada Lovelace

2025-06-12 15:37:40

1472

探索无限可能：生成式推荐的演进、前沿与挑战

TL;DR 过去一年间，生成式推荐取得了长足的实质性进展，特别是在凭借大型语言模型强大的序列建模与推理能力提升整体推荐性能方面。基于LLM（Large Language Models, LLMs

2025-10-20 16:42:35

4874

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

在生成EXE后，运行出现这个问题，求教大神指点是怎么原因，急急急！！！！！

在生成EXE后，运行出现这个问题，求教大神指点是怎么原因，急急急！！！！！什么问题？如何解决？！

2015-06-19 17:21:32

在生成系统时run simulator时为什么出现the HDL simulator path is n...

在生成系统时runsimulator时为什么出现the HDL simulator path is not set.it can be set in the tools >options dialo怎么改

2014-08-13 17:59:28

CC2541 oad 在生成ImageB.bin超过256k flash？

CC2541oad在生成ImageB.bin超过256k flash？那个大神用过cc2541的 oad功能吗？？？在生成ImageB.bin时，ImageB.bin文件过大，超过

2016-03-16 14:56:17

DLP3010EVM在生成新的firmware时不能取消勾选 “Skip changing user defined looks”怎么解决？

板卡：DLP3010EVM 软件：DLP3010LC 2.1.0.7 在生成新的firmware 时不能取消勾选 “Skip changing user defined looks”，如下图，

2025-03-03 07:04:08

DLP660TE在生成4k画面时，抖动频率是否可以自行设定？

我想咨询一下DLP660TE在生成4k画面时，抖动频率是否可以自行设定，抖动的两幅图是否可以客户指定？

2025-02-17 07:20:34

ESP-07 GPIO0在生成clk_out信号时卡住了怎么解决？

我正在使用 ESP-07 模块，即使在执行复位后，GPIO0 引脚仍卡在生成clk_out信号（26MHz）。可以修复吗？或者，芯片坏了？

2024-07-18 07:07:14

LABview在生成表格的时候，如何同时给表格加密

用LABVIEW生成表格是很简单的事情，但如果在生成表格的同时用LABVIEW给表格加密，然后继续往这个表格里面写数据，求问大神该怎么实现

2018-04-10 10:09:57

Reset-Handler所需的.text空间是否在生成链接文件时预先计算并保留呢？

的地址可能已更改，并且启动文件可能不正确。“Reset-Handler”所需的“.text”空间是否在生成链接文件时预先计算并保留？或者它是一种迭代过程？gcc 工具链的哪个实例生成启动文件？谢谢

2023-01-05 09:06:52

labview中生成报表，运行后，怎么一直在生成，停不下来

本帖最后由 elecfans跑堂于 2015-8-31 09:24 编辑 labview中生成excel报表，运行后，怎么excel一直在生成，停不下来，求解

2015-08-31 08:49:00

labview怎么在修改项目子vi的时候实时预览项目生成效果，而不是每次生成EXE出来再看效果？？

labview怎么在修改项目子vi的时候实时预览项目生成效果，而不是每次生成EXE出来再看效果？？这样有点麻烦。望大神告知谢谢！！

2018-12-28 17:30:44

pic24f系列用mcc生成的i2c主机中断程序怎么使用

在生成的i2c1.c文件中有几个函数，利用中断进行读写从机，按照i2c1.h中的例子无论怎么改都不正确，每次都只能发送从机地址，既不能读也不能写。哪位成功过的朋友给讲一下到底怎么回事

2017-04-20 18:10:01

在8168 DVR-RDK中,现在生成的.out 只可以在开发板上运行的,怎么修改能够生成可在linux的可调试程序?

本帖最后由一只耳朵怪于 2018-5-25 17:36 编辑在8168 DVR-RDK中,现在生成的.out 只可以在开发板上运行的,怎么修改能够生成可在linux的可调试程序?

2018-05-25 08:12:10

在quartus ii 中编写一个程序在生成密封元件时会报错

我有一个问题，在quartus ii 中编写一个程序，它的输出是自定义类型，编译安全通过，为什么在生成密封元件时会报错，说是不支持的类型。有没有解决办法。

2014-02-21 01:18:11

如何配置RTR位以在生成的CAN_NODE_0中接收远程帧?

但我们无法在代码中配置 RTR 位，能否请你解释一下如何配置 RTR 位以在生成的 CAN_NODE_0 中接收远程帧。

2024-01-19 06:38:58

微波射频在生活中的应用有哪些方面？

　　微波射频在生活中的应用有哪些方面？　　1.网络通信，信号覆盖以及信息沟通。　　2.微波射频能产生均匀的能量，也用于烹饪或者加热食物　　3.因为微波射频产生的能量可控，可用于稳定照明。　　4.在人体健康方面也有相关应用。

2022-03-30 13:51:57

无法在OVMS上运行来自Meta的大型语言模型（LLM），为什么?

无法在 OVMS 上运行来自 Meta 的大型语言模型（LLM），例如 LLaMa2。从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时遇到错误。

2025-03-05 08:07:06

请问Y电容到底怎么接效果才是最好的？

Y电容，到底怎么接效果才是最好的？

2021-03-17 06:42:17

请问labview在生成exe时怎么让启动项的vi不运行？

labview在生成exe时怎么让启动项的vi不运行？

2018-12-14 11:16:06

请问为什么生成FFT ip 核会卡在生成这一步？

请问为什么生成FFT ip 核会卡在生成这一步，前两天还好好的。求大神的解决办法，网上实在找不到方法

2016-11-01 13:42:43

基于词频统计的多文档自动摘要生成方案

多文档自动摘要技术可以向用户提供一个简洁、全面的摘要信息，因此研究多文档自动摘要技术具有很重要的意义。本文提出了一种上下文敏感的基于词频统计的多文档自动摘要

2009-12-18 16:58:29

SVD的效果到底如何呢？

机器学习中常用的降维方法是主成分分析(PCA)，而主成分分析常用奇异值分解(SVD)。那么SVD的效果到底如何呢？SVD常用来进行图像的压缩，我们就来实验一下。

2017-02-11 17:19:13

2112

一种自动生成循环摘要的方法

存放的新值来描述循环语句的执行效果，并将该执行效果定义为循环摘要，同时，提出一种自动生成循环摘要的方法，可以为操作常用数据结构的循环自动生成循环摘要，包含嵌套循环．此外，基于循环摘要，可以自动生成循环语句

2017-12-29 11:12:57

电力通信模型自动生成方法及其优化

网络中的脆弱节点进行补强。仿真实验结果显示这种结合K-means和脆弱性分析的拓扑生成算法在生成对意外风险具有较强抗性的电力网络拓扑方面具有比较好的效果。

2018-02-02 17:05:55

图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗？

因此，如果快速浏览BigGAN生成的一系列图像，我们能从中发现不少图具有诡异的美感。比如模型在生成下面几幅景观图时都遵循了从数据集中学到的构图和光影，但当这些来自不同样本的素材杂糅到一起后，它们给人的感觉就成了既熟悉又奇怪。

2018-11-21 09:05:59

7022

关于如何控制变量在生成代码里的作用分析和介绍

这样在生成代码的时候，参数p1就会定义为int32的数据类型，并且声明为extern。而且它的声明和定义代码会分别写入myHdr.h以及mySrc.c。

2019-09-17 16:18:40

3548

基于图集成模型的自动摘要生产方法

现有长文本自动摘要生成方法存在句子特征单一化和无法全面衡量句子相似特征的问题，导致摘要生成的准确率降低。为此，提岀一种基于图集成模型的自动摘要生成方法。在计算得到文本句子词频、语义和句法特征后，利用

2021-03-22 14:40:16

在生成中兴概念过程中进行规则提取的算法

决策信息系统的规则提取是数据分析的硏究内容之一。形式概念分析是一种教据分析与信息处理的方法。从决策形式背景出发，定义综合概念以及中心概念，提岀了一种在生成中心概念过程中进行规则提取的算法。在此过程中

2021-04-07 09:27:45

融合文本分类和摘要的多任务学习摘要模型

文本摘要应包含源文本中所有重要信息，传统基于编码器-解码器架构的摘要模型生成的摘要准确性较低。根据文本分类和文本摘要的相关性，提出一种多任务学习摘要模型。从文本分类辅助任务中学习抽象信息改善摘要生成

2021-04-27 16:18:58

基于语义感知的中文短文本摘要生成技术

文本摘要生成技术能够从海量数据中概括岀关键信息，有效解决用户信息过载的问题。目前序列到序列模型被广泛应用于英文文本摘要生成领域，而在中文文本摘要生成领域没有对该模型进行深λ硏究。对于传统的序列到序列

2021-05-28 15:45:25

基于卷积神经网络的图像描述生成方法

short-term memory，LSTM）的组合框架在生成图像描述方面解决了梯度消失和梯度爆炸问題，但是基于LSTM的模型依赖序列化的生成描述，无法在训练时并行处理，且容易在生成描述时遗忘先前的信息。为

2021-06-03 14:45:21

基于Patent-Rank的中文专利摘要生成算法

文本摘要任务旨在通过对原文进行压缩提炼，得出简明扼要的内容描述。针对中文专利文本，提出了一种基于 PatentRank算法生成专利摘要的算法。首先，对候选勺群做冗余处理，以去除候选勺群中相似度较高

2021-06-15 17:03:06

受控文本生成模型的一般架构及故事生成任务等方面的具体应用

任务和常识生成任务上的具体应用，指出了受控文本生成技术在具体应用场景下的改进方向。 0. 什么是受控文本生成文本生成任务是自然语言处理领域十分重要的一类任务。文本摘要、语法纠错、人机对话等很多自然语言处理任务都可

2021-10-13 09:46:39

4589

生成式摘要的经典模型

以往的标题模型产生的都是平实性标题，即简单语言描述的事实性标题。但是，实际上我们可能更需要有记忆点的爆款标题来增加点击量/曝光率。因此，衍生出了一个新任务——带有风格的标题生成，即 Stylistic Headline Generation，简称 SHG 。

2022-07-08 17:04:49

3378

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

LLM 与通用人工智能（AGI）之间仍存在显著差距。首先，大多数当前 LLM 只能感知和理解多模态内容，而不能自然而然地生成多模态内容。其次，像图像和语音这样的连续信号不能直接适应接收离散 token 的 LLM。

2023-05-22 14:38:06

1333

LLM性能的主要因素

现在是2023年5月，截止目前，网络上已经开源了众多的LLM，如何用较低的成本，判断LLM的基础性能，选到适合自己任务的LLM，成为一个关键。本文会涉及以下几个问题：影响LLM性能的主要因素

2023-05-22 15:26:20

2652

NVIDIA 携手微软，在生成式 AI 的新时代推动 Windows PC 创新

模型（LLM）应用、Stable Diffusion 和 Adobe Firefly 等图片生成器，以及 NVIDIA DLSS 3 Frame Generation （DLSS 3 帧生成技术）等

2023-05-25 09:15:02

1255

LLM在各种情感分析任务中的表现如何

最近几年，GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务，特别是在zero-shot和few-shot方面表现出它们强大的性能。因此，情感分析(SA)领域也必然少不了LLM的影子

2023-05-29 17:24:41

3393

大型语言模型（LLM）的自定义训练：包含代码示例的详细指南

近年来，像 GPT-4 这样的大型语言模型（LLM）因其在自然语言理解和生成方面的惊人能力而受到广泛关注。但是，要根据特定任务或领域定制LLM，定制培训是必要的。本文提供了有关自定义训练 LLM 的详细分步指南，其中包含代码示例和示例。

2023-06-12 09:35:43

3709

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠性和可解释性。随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部

2023-06-25 15:08:49

2367

LLM的长度外推浅谈

苏神最早提出的扩展LLM的context方法，基于bayes启发得到的公式

2023-07-28 17:37:43

2584

YouTube正在测试用人工智能自动生成视频摘要功能

根据谷歌支持页面7月31日的信息显示，YouTube正在测试用人工智能（AI）自动生成视频摘要的功能，这是谷歌在探索生成型 AI 技术的最新尝试之一。通过Android Police

2023-08-15 15:58:02

2845

Stability AI发布首个用于编程的生成式LLM AI产品—StableCode

Stability AI 近日宣布了他们首个用于编程的生成式 LLM AI 产品 ——StableCode。该产品旨在帮助程序员完成日常工作，并为新手开发者提供实用的学习工具。

2023-08-24 11:27:03

1568

Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

今天，Meta发布了Code Llama，一款可以使用文本提示生成代码的大型语言模型（LLM）。

2023-08-25 09:06:57

2439

从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM

要理解大语言模型（LLM），首先要理解它的本质，无论预训练、微调还是在推理阶段，核心都是next token prediction，也就是以自回归的方式从左到右逐步生成文本。

2023-09-19 16:25:47

4283

Medusa如何加速大型语言模型（LLM）的生成？

面对推测性解码的复杂性，研究人员推出了Medusa技术，这个框架回归了Transformer模型的本质，减少了复杂度，增强了效率，让每个生成阶段都能快速产出结果。当将Medusa与基于树的注意机制结合时，生成速度提高了2到3倍。

2023-09-20 11:23:59

1253

LLM的幻觉问题最新综述

幻觉被描述为无意义或不忠实于所提供源内容的生成内容。根据与源内容的矛盾，这些幻觉又进一步分为内在幻觉和外在幻觉。在LLMs中，幻觉的范围包含了一个更广泛、更全面的概念，主要集中在事实错误上。本文重新定义了幻觉的分类，为LLM应用程序提供了一个更定制的框架。

2023-11-22 17:40:41

2321

从HumanEval到CoderEval: 你的代码生成模型真的work吗？

项目中的选取了代码生成任务来构建CoderEval，并根据对外部依赖的程度为标准将这些任务分为6个等级、根据生成的目标分为3类生成任务，以更多维地评估不同大模型在不同上下文场景中的生成效果。实验结果表明，这三个模型在生成自包含函数方面的效果明显优于其他任务，但实际

2023-11-25 15:55:01

2723

全面解析大语言模型（LLM）

internal feedback：使用LLM去预测生成的plan取得成功的概率、Tree of Thought去对比不同的plan（有点类似AlphaGo的蒙特卡诺搜索的意思）、对中间结果进行评估并作为长期记忆存储

2023-12-05 14:49:47

4560

安霸发布N1系列生成式AI芯片支持前端设备运行本地LLM应用

单颗 SoC 支持 1 至 340 亿参数的多模态大模型（Multi-Modal LLM）推理，实现前端低功耗生成式 AI。

2024-01-09 15:19:33

1702

安霸发布全新N1系列生成式AI芯片

安霸在CES 2024上发布了全新的N1系列生成式AI芯片，这是一款专门为前端设备设计的芯片，支持本地运行大型语言模型（LLM）应用。其单颗SoC能够支持1至340亿参数的多模态大模型（Multi-Modal LLM）推理，从而实现低功耗的生成式AI功能。

2024-01-09 15:32:54

2295

2023年LLM大模型研究进展

作为做LLM应用的副产品，我们提出了RLCD[11]，通过同时使用正例和负例prompt，自动生成带标签的生成样本不需人工标注，然后可以接大模型微调，或者用于训练reward models

2024-01-19 13:55:33

1006

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

这个问题随着LLM规模的增大愈发严重。并且，如下左图所示，目前LLM常用的自回归解码（autoregressive decoding）在每个解码步只能生成一个token。这导致GPU计算资源利用率

2024-01-29 15:54:24

5984

ServiceNow、Hugging Face 和 NVIDIA 发布全新开放获取 LLM，助力开发者运用生成式 AI 构建企业应用

2024 年 2 月 28 日 - ServiceNow（NYSE：NOW）、Hugging Face 和 NVIDIA 于今日发布 StarCoder2，其为一系列用于代码生成的开放获取大语言模型（LLM

2024-02-29 11:12:58

523

100%在树莓派上执行的LLM项目

ChatGPT的人性口语化回复相信许多人已体验过，也因此掀起一波大型语言模型（Large Language Model, LLM）热潮，LLM即ChatGPT背后的主运作技术，但LLM运作需要庞大运算力，因此目前多是在云端（Cloud）上执行。

2024-02-29 16:29:59

2411

解锁LLM新高度—OpenVINO™ 2024.1赋能生成式AI高效运行

LLM 的发展仍保持着惊人的速度。尽管现有的 LLM 已经具备强大的功能，但通过 OpenVINO™ 的优化和推理加速，可以对这些复杂模型的执行进行精炼，实现更快、更高效的处理，减少计算开销并最大限度发挥硬件潜力，这将直接导致 LLM 实现更高的吞吐量和更低的延迟。

2024-05-10 10:36:50

1229

AI初创公司Alembic攻克LLM虚假信息难题

近日，AI领域的创新者Alembic公司宣布了一项重大突破：其全新AI系统成功解决了LLM（大型语言模型）中的虚假信息生成问题。这一成就标志着长久以来困扰LLM的“幻觉”问题被彻底攻克。

2024-06-18 14:26:23

1034

什么是LLM？LLM的工作原理和结构

随着人工智能技术的飞速发展，大型语言模型（Large Language Model，简称LLM）逐渐成为自然语言处理（NLP）领域的研究热点。LLM以其强大的文本生成、理解和推理能力，在文本生成

2024-07-02 11:45:26

18413

LLM模型的应用领域

在本文中，我们将深入探讨LLM（Large Language Model，大型语言模型）的应用领域。LLM是一种基于深度学习的人工智能技术，它能够理解和生成自然语言文本。近年来，随着计算能力的提高

2024-07-09 09:52:17

2024

llm模型和chatGPT的区别

LLM（Large Language Model）是指大型语言模型，它们是一类使用深度学习技术构建的自然语言处理（NLP）模型。LLM模型可以处理各种语言任务，如文本生成、文本分类、机器翻译等。目前

2024-07-09 09:55:49

2494

LLM模型和LMM模型的区别

LLM（线性混合模型）和LMM（线性混合效应模型）之间的区别如下：定义： LLM（线性混合模型）是一种统计模型，用于分析具有固定效应和随机效应的线性数据。它允许研究者考虑数据中的非独立性，例如

2024-07-09 09:57:46

3828

llm模型有哪些格式

LLM（Large Language Model，大型语言模型）是一种深度学习模型，主要用于处理自然语言处理（NLP）任务。LLM模型的格式多种多样，以下是一些常见的LLM模型格式

2024-07-09 09:59:52

2008

llm模型本地部署有用吗

在当今的人工智能领域，LLM（Large Language Model，大型语言模型）已经成为了一种非常受欢迎的技术。它们在自然语言处理（NLP）任务中表现出色，如文本生成、翻译、摘要、问答等。然而

2024-07-09 10:14:49

1722

大模型LLM与ChatGPT的技术原理

与机器的交互方式。这些技术通过深度学习和自然语言生成（Natural Language Generation, NLG）的结合，实现了对复杂语言任务的高效处理。本文将深入探讨大模型LLM和ChatGPT的技术原理，并通过代码示例展示其应用。

2024-07-10 10:38:40

12817

LLM预训练的基本概念、基本原理和主要优势

理解和生成自然语言的能力，为各种NLP任务提供了强大的支持。本文将详细介绍LLM预训练的基本概念、基本原理以及主要优势，并附上相关的代码示例。

2024-07-10 11:03:48

4563

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨，内容将涵盖模型压缩、解码方法优化、底层优化、分布式并行推理以及特定框架和工具的应用等方面。

2024-07-24 11:38:19

3037

三行代码完成生成式AI部署

LLM加载与推理部署能力，实现了OpenVINO对CNN网络、生成式模型、LLM网络主流模型的全面推理支持。

2024-08-30 16:49:58

1273

基于Arm平台的服务器CPU在LLM推理方面的能力

在过去一年里，生成式人工智能 (AI) 吸引了科技行业的目光，大家都在想方设法地将大语言模型 (LLM) 部署到其位于云端和边缘侧服务器上的应用中。虽然 GPU 和加速器凭借优异的性能，一直是这些

2024-09-02 10:39:14

1386

LLM和传统机器学习的区别

在人工智能领域，LLM（Large Language Models，大型语言模型）和传统机器学习是两种不同的技术路径，它们在处理数据、模型结构、应用场景等方面有着显著的差异。 1. 模型结构

2024-11-08 09:25:41

2941

使用LLM进行自然语言处理的优缺点

自然语言处理（NLP）是人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言。大型语言模型（LLM）是NLP领域的一项重要技术，它们通过深度学习和大量的数据训练，能够执行各种

2024-11-08 09:27:05

3893

LLM技术对人工智能发展的影响

。一、LLM技术在人工智能领域的应用自然语言处理（NLP） LLM技术在自然语言处理领域发挥着重要作用。通过训练模型识别和生成语言模式，LLM技术使得机器能够执行语言翻译、情感分析、文本摘要等任务，极大地提高了语言处理的准确性和效率。

2024-11-08 09:28:34

2537

如何训练自己的LLM模型

训练自己的大型语言模型（LLM）是一个复杂且资源密集的过程，涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤，以及一些关键考虑因素：定义目标和需求：确定你的LLM将用

2024-11-08 09:30:00

2053

什么是LLM？LLM在自然语言处理中的应用

所未有的精度和效率处理和生成自然语言。 LLM的基本原理 LLM基于深度学习技术，尤其是变换器（Transformer）架构。变换器模型因其自注意力（Self-Attention）机制而闻名，这种机制使得模型能够捕捉文本中的长距离依赖关系。LLM通过在大规模语料库上

2024-11-19 15:32:24

4615

恩智浦如何在边缘设备上部署LLM

近来，与AI相关的周期性热点几乎都围绕着大语言模型 (LLM) 和生成式AI模型，这样的趋势反映出这些话题近年来日益增强的影响力和普及程度。与大语言模型和生成式AI模型相关的应用涵盖了广泛的领域，从

2024-11-29 09:39:17

1429

京东广告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速实践

、个性化召回、深度召回等），以召回大量候选商品。随后，系统通过相对简单的粗排模型对候选集进行初步筛选，缩小候选范围，最后通过精排和重排模型，确定最终返回给用户的推荐结果。随着大语言模型（LLM）在推荐系统中的应用，生成

2025-01-14 15:17:05

1107

利用OpenVINO GenAI解锁LLM极速推理

随着 DeepSeek、 GPT 和 Llama 等大语言模型（LLMs）不断推动人工智能的边界，它们在高效部署方面也带来了重大挑战。这些模型在生成类似人类的文本方面具有革命性，但每生成一个

2025-03-18 14:09:02

992

详解 LLM 推理模型的现状

领域的最新研究进展，特别是自DeepSeekR1发布后兴起的推理时间计算扩展相关内容。在LLM中实施和改进推理简单来说，基于LLM的推理模型是一种旨在通过生成中间

2025-04-03 12:09:48

1383

小白学大模型：从零实现 LLM语言模型

在当今人工智能领域，大型语言模型（LLM）的开发已经成为一个热门话题。这些模型通过学习大量的文本数据，能够生成自然语言文本，完成各种复杂的任务，如写作、翻译、问答等。https

2025-04-30 18:34:25

1138

LM Studio使用NVIDIA技术加速LLM性能

随着 AI 使用场景不断扩展（从文档摘要到定制化软件代理），开发者和技术爱好者正在寻求以更快、更灵活的方式来运行大语言模型（LLM）。

2025-06-06 15:14:07

920

NVIDIA recsys-examples在生成式推荐系统中的高效实践

在生成式 AI 浪潮的推动下，推荐系统领域正经历深刻变革。传统的深度学习推荐模型 (DLRMs) 虽已展现出一定效果，但在捕捉用户兴趣偏好和动态行为序列变化时，常面临可扩展性挑战。生成式推荐系统 (Generative Recommenders, GRs) 的出现，为这一领域带来了全新思路与机遇。

2025-07-04 14:43:07

936

NVIDIA TensorRT LLM 1.0推理框架正式上线

TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架，核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标，其构建了多维度的核心实现路径：一方面，针对需

2025-10-21 11:04:24

923

已全部加载完成

搜索历史

LLM在生成摘要方面效果到底如何？

评论