电子发烧友App

硬声App

搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

电子发烧友网>人工智能>LLM真的能推理和规划吗？

LLM真的能推理和规划吗？

【导读】前段时间，LeCun转发了2篇长文，集中讨论了LLM的规划推理能力和涌现能力的来源。作者认为，LLM本身不具有规划推理能力，而涌现出来的能力，根源应该都是上下文学习的结果。

大语言模型到底会不会推理？涌现出来的各种能力到底来源是什么？

前段时间，LeCun在自己推特上转发了好几篇文章，集中讨论了这个问题：

「自回归LLM无法制定计划（并且无法真正推理）」。

而LeCun转发第二篇论文，则讨论了LLM涌现能力。

原推表示，不管大伙相不相信LLM的涌现能力，这篇文章都值得一读：

「经过了超过1000次的系列实验，我们证明了大语言模型所谓的涌现能力，其实仅仅是上下文学习而已。」

LLM真的能推理和规划吗？

Subbarao Kambhampat的文章认为，网上对于LLM能够推理和规划的说法，本身不太站得住脚，但是学界对于这个问题，也开始进行了很严肃地研究。

至少以他之前针对GPT-3的研究看来，认为大语言模型行能够推理和规划的说法是有很大问题的。

https://arxiv.org/pdf/2206.10498.pdf

我们提出了一个可扩展的评估框架来测试LLM推理行动和变化的能力，这是人类智力的一个核心方面。我们提供了多个测试用例，这些测试用例比之前建立的任何基准都更加复杂，并且每个测试用例都会评估有关操作和更改的推理的不同方面。GPT-3 (davinci)、Instruct-GPT-3 (text-davinci-002) 和 BLOOM (176B) 的结果显示此类推理任务的表现不佳。

针对新推出的GPT-4，教授的团队也将之前的研究进行了进一步的拓展，试图发现新的最先进的大语言模型是否对于推理和规划能力有了新的进展。

https://arxiv.org/pdf/2206.10498.pdf

我们通过在类似于国际规划竞赛中使用的方式，生成一组实例来进行系统研究，并以两种不同的模式评估LLM：自主模式和启发式模式。我们的研究结果表明，法学硕士自主生成可执行计划的能力相当有限，GPT-4在各个领域的平均成功率为 ∼12%。

然而，启发式模式的结果显示出更多的希望。在启发式模式中，我们证明了LLM生成的计划可以改进底层合理规划器的搜索过程，并且还表明外部验证者可以帮助提供对生成的计划的反馈，并反向提示 LLM 以更好地生成计划。

文章用一张很有意思的图向读者说明，似乎LLM表现出来的推理能力，主要的原因还是在于任务比较简单，提问题的人已经知道了问题的答案。

而针对竞赛级别的规划和推理任务，比如国际规划大赛（IPC）中的积木世界（Blocks World）问题，LLM的表现就不尽如人意。

初步结果表明，从GPT-3到GPT3.5再到GPT-4，生成的平面图的精度有一定的提高，GPT-4在Blocks World中达到30%的经验精度（empirical accuracy）(尽管在其他领域仍然较低)。

教授的研究团队认为，对于很多规划任务的表现，LLM的能力可能只是因为他在特别大的范围内进行了训练，从而「记住」规划的内容。

于是研究团队通过混淆规划问题中的动作和对象的名称来降低近似检索的有效性，阻止大语言模型检索自己记住的「规划内容」。

在这样的挑战面前，GPT-4的经验表现急剧下降。

对于LLM不能直接自主地进行规划的局限，研究团队通过两种方式进行改进：

首先是对模型进行微调，不过教授的团队在对模型进行了微调之后，还是没有发现模型的规划能力有提升。

而且认为，即便通过微调模型使得模型的规划能力提高了，但是也是将规划任务转化为基于内存的检索，而不能证明大语言模型能够进行自主规划。

第二种提高模型规划能力的方法是不断提示LLM，改进它初始的计划。

但是对于这种方法，特别是不断让模型自己生成改进意见的提示，本质上都是让模型生成猜测，或者是提示的人决定哪些猜测能更好地改进规划，都不是模型自己提升了计划能力。

那些顶会上声称展示了LLM规划能力的论文问题出在哪里？

持怀疑态度的读者现在可能会问，但那些在高调的人工智能会议上声称展示了LLM规划能力的论文是怎么回事？

要分析这些说法，首先需要明白，解决规划任务需要：

1. 拥有必要的规划领域知识

2. 能够将这些计划知识组装成一个可执行的计划，该计划负责完成子目标，或者进行资源交互。

第一个要素可以称为知识获取，第二个要素可以称为推理/计划。

许多声称LLM具有规划能力的论文，在仔细检查后，都混淆了从LLM中提取的可执行计划的一般规划知识。

如果研究人员所寻找的都是抽象的计划，例如「婚礼计划」，而没有实际执行计划的意图时，很容易将它们与完整的可执行计划混淆，从而没法准确地评估LLM的计划能力。

教授团队对几篇声称LLM具有规划能力的论文的仔细研究后发现，LLM要么在子目标交互可以被安全地忽略的领域/任务中进行计划工作（规划没有意义的任务或者不重要的任务），要么将推理问题委托给循环过程中的人类来完成(通过反复提示，「纠正」计划)。

如果没有这些假设或者缓冲措施，从LLM中得出的计划在外行用户看来可能是合理的，但会导致执行时出现各种各样的问题。

比如，旅行计划书籍的大量出现，这些书籍内容基本都是由LLM自动生成出来的，而购买这些书籍的读者却把它们误认为是可以执行的计划，最后会导致结果非常令读者失望。

LLM并不存在计划和推理能力

总而言之，教授认为，他所读过、验证过或做过的任何事情都没有给他任何令人信服的理由，让他相信LLM会像通常理解的那样进行推理/计划。

认为LLM具有推理/规划能力的研究所做的内容，在大规模的训练下，其实都相当于是检索，有时会被误认为是推理能力。

LLM确实擅长为任何任务产生想法，包括那些涉及推理的任务，这可以有效地用于支持推理/计划。换句话说，LLM已经拥有足够惊人的近似检索的能力，我们可以充分利用这种能力，不需要将虚假的推理/计划能力归在LLM身上。

如果对于这个问题感兴趣，还可以参考教授的一场演讲。

而另一篇关于大语言模型涌现的能力的文章，针对的是上下文学习的能力。

涌现能力？不存在！

https://arxiv.org/pdf/2309.01809.pdf

简单来说，研究人员发现，LLM在执行一些没有经过明确训练的、且需要复杂推理能力的任务时，表现不是一般的好。

这种能力对未来NLP的研究方向产生了重大影响。随着LLMs的不断壮大，在可预见的未来，应用的场合会越来越普遍。

但问题在于，在研究人员评估LLMs的能力时，会被一些因素所干扰，导致混淆。

比方说，有些能力可能是由prompt技术带来的。上下文学习（in-context learning）和指令跟随（instruction following）都是其中的例子。

这些情况也会随着模型规模的不断变大而增多。

因此，本文的研究团队全面考察了这些能力，考虑到了一些可能影响模型评估的潜在偏差因素。

研究人员对一组18个模型进行了严密的测试，这些LLM的参数范围从6000万到1750亿不等，测试包含22项任务。

在经过了1000多次实验后，研究人员给出了充足的证据，证明了所谓的涌现能力，主要就是上下文学习带来的。

研究人员还表示，并没有找到能证明LLM有推理能力的证据。

实验方法

具体来看，研究人员逐一研究了以下问题：

·为了消除上下文学习和指令微调可能会带来的影响，研究人员选择了零样本条件，并使用了非指令微调的模型。

·探究上下文学习能力和指令微调之间的相互作用，搞明白是不是该用推理能力来解释指令微调模型的一些额外能力。为此，研究人员比较了没有指令微调的模型和在不同程度上经过指令微调的不同规模模型的能力。

·通过人工来检查LLM的功能性语言能力、形式语言能力，以及是否可以记住任务。

为了评估LLMs能力的真实程度，研究人员精心设计了实验结构，尽可能减少误导因素。

此外，该团队的实验设计特别注重不能触发模型的上下文学习能力。比如，指令微调会将训练模型的指令转化为示例（exemplar），这就可能导致上下文学习。

因此，实验团队使用了非指令微调的模型来避免这种可能。

下图是研究人员所选用的模型。

研究人员对来自四个模型系列的一些不同规模的模型进行了评估，包括GPT、T5、Falcon和LLaMA。

之所以选择这些模型，是因为GPT和LLaMA之前就被发现有涌现能力，而Falcon处于LLM排行榜的前列。

研究人员还选择了T5，因为它是一个编码器——解码器模型（encoder-decoder model），其指令微调版本（Flan）是使用大量指令微调数据集训练出来的。

而在GPT系列中，研究人员使用了GPT-2和GPT-3的指令微调和非指令微调版本；在T5系列中，研究人员使用了T5及其指令微调的对应版本FLAN-T5。

同样，研究人员使用了Falcon3的指令微调版本和非指令微调版本。至于LLaMA，由于它没有经过指令微调，研究人员无法获得该模型的指令微调版本。

此外，研究人员还评估了GPT-3 text-davinci-003，这是一个InstructGPT模型。InstructGPT模型最初是根据注释者编写的prompt和相应的预期行为进行微调的，然后再使用该模型收集其它模型输出的排序数据集，利用人类反馈强化学习（RLHF）对其进行进一步微调。

事实证明，这种训练方法可以提高模型的性能。

其中，研究人员选的T5模型特意低于1B的参数量，因为在这么小的模型中还没有观察到涌现能力，这在研究人员的实验中起到了关键的控制作用。

在研究人员选择的模型中，GPT-3 davinci（非指令微调）、GPT-3 textdavinci-001（指令微调）和GPT-3 textdavinci-003（InstructGPT）都是以前观察到过涌现能力的模型。这一选择主要是出于模型可用性的考虑。

其它已证明具有涌现能力的模型系列包括PaLM、Chinchilla、Gopher和LaMDA，但由于没有相应的应用程序接口，所以研究人员没有对其进行评估。

上图为实验中使用的任务清单，以及这些任务在之前是否被识别为涌现的情况，并附有解决任务所需能力的性质分类。

这种分类是通过人工检查数据，并采用Mahowald等人提供的分类框架确定。研究人员评估了每个任务中50个示例的记忆情况，假定任务数据没有泄露。

上表详细列出了整体的实验设置，包括测试的不同模型、实验中使用的不同任务以及采用的评估设置。

鉴于团队的目标是评估不受其他因素影响的LLM的涌现能力，研究人员对从T5和GPT系列中选出的12个模型中的每个模型在所有22个选定任务上进行了评估。

对于每种情况，研究人员都采用了相同的prompt策略：封闭式和封闭式对抗。为考虑反应的可变性，研究人员将每个实验进行三次，计算平均结果。其中运行的所有实验都是在英伟达A100 GPU上进行的，温度为0.01，批量大小为16。

对于GPT-3 175B参数模型（davinci、text-davinci-001 和 text-davinci003），团队使用官方的API进行评估，只进行一次，温度为0。这是因为本文的研究人员也将温度设为了0，保证了结果的可重复性，并将出现幻觉的可能性降至最低。

此外，他们还从LLaMA和Falcon系列中选择了六个模型，在前面选择的22个任务中的4个上进行了评估。

研究人员在选择这4个任务时，要确保其中两个任务先前已被确定为突发任务，另外两个任务已被确定为非突发任务。之后，团队再次使用封闭式和对抗式的prompt策略对它们进行了测试，并对每个实验运行三次以考虑到可能存在的差异。

鉴于某些评估任务的相关选项数量不固定，研究人员通过多次随机选择该任务中的问题选项并求得平均分，来构建每项任务的基线。

实验结果

对于第一个研究问题：鉴于上下文学习对LLMs中涌现能力存在一定的潜在影响，在没有上下文学习（包括指令微调）的情况下，哪些能力是真正的涌现能力？

研究团队首先展示了在零样本条件下未经指令微调的175B参数的GPT-3模型的表现。

上图是在封闭式prompt策略下，GPT系列模型在各种任务上的表现。

研究团队使用的是BERTScore精确度 (BSA) 和匹配精确度 (EMA)，在少样本 (FS)、零样本 (ZS) 设置下对指令调整（IT）模型和非指令调整（non-IT）模型进行了评估。

蓝色表示指令微调模型在少样本条件下的结果，与之前文献报道的结果相当。

黄色表示在相同设置下使用BSA测得的性能，红色表示在非指令微调模型的零样本条件下的BSA结果，换句话说，这种条件就代表着没有上下文学习的影响下的结果。

上图为Falcon（上部）和LLaMA（下部）模型在非指令调整零样本条件下对所选任务子集的性能表现示意图，表明在没有上下文学习的情况下，模型始终缺乏所谓的涌现能力。

上图为非指令微调的GPT模型在对抗环境下的表现，在这些任务子集上，GPT的表现高于随机基线。在一些任务上的表现是可预测的，因此不算是涌现能力。

在其余任务中，与随机基线相比，成绩的提高幅度相对较小。

而针对第二个问题：经过指令微调的模型是否表现出了推理能力，还是说指令微整更有可能使这些模型更有效、更高效地进行上下文学习？

需要注意的是，指令微调的本质是在指令和范例之间建立映射关系，而这正是上下文学习的特征，因此这一过程很可能确实触发了上下文学习。

研究人员的假设意味着，指令微调为LLMs提供了将指令转化为范例的能力，而范例随后又调动了它们的上下文学习能力。

下图是T5系列模型在不同环境下的性能表现。

审核编辑：黄飞

阅读全文

解码器(40056) 解码器(40056)
编码器(131226) 编码器(131226)
GPT(14803) GPT(14803)
大模型(810) 大模型(810)

评论

查看更多

相关推荐

对比解码在LLM上的应用

为了改进LLM的推理能力，University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明，所提方法能有效改进LLM的推理能力。让我们走进论文一探究竟吧！

2023-09-21 11:37:55

327

TensorRT-LLM初探（一）运行llama

TensorRT-LLM正式出来有半个月了，一直没有时间玩，周末趁着有时间跑一下。

2023-11-16 17:39:34

772

基于ICL范式的LLM的最高置信度预测方案

本文假设不同的ICL为LLM提供了关于任务的不同知识，导致对相同数据的不同理解和预测。因此，一个直接的研究问题出现了:llm能否用多个ICL提示输入来增强，以提供最可信的预测？为解决这个问题，本文提出上下文采样(ICS)。ICS遵循三步流程:采样、增强和验证，如图1所示。

2023-11-24 11:20:46

863

低比特量化技术如何帮助LLM提升性能

针对大语言模型 (LLM) 在部署过程中的性能需求，低比特量化技术一直是优化效果最佳的方案之一，本文将探讨低比特量化技术如何帮助 LLM 提升性能，以及新版 OpenVINO 对于低比特量化技术的支持。

2023-12-08 15:26:45

554

使用基于Transformers的API在CPU上实现LLM高效推理

英特尔 Extension for Transformers是英特尔推出的一个创新工具包，可基于英特尔架构平台，尤其是第四代英特尔至强可扩展处理器（代号 SapphireRapids，SPR）显著加速基于Transformers的大语言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

LLM风口背后，ChatGPT的成本问题

趁着ChatGPT这一热门话题还未消退，我们来聊一聊这类大规模语言模型（LLM）或通用人工智能（AGI）背后的细节。毕竟目前相关的概念股跟风大涨，但还是有不少人在持观望态度。无论是国外还是国内

2023-02-15 01:19:00

4129

用Chiplet解决ASIC在LLM上的成本问题

电子发烧友网报道（文/周凯扬）虽说最近靠着GPT大语言模型的热度，英伟达之类的主流GPU公司赚得盆满钵满，但要说仗着GPU的高性能就能高枕无忧的话，也就未免有些痴人说梦了。未来随着LLM的继续发展

2023-07-18 00:15:00

889

LLM3225

LLM3225 - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R15H

LLM3225-R15H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R18H

LLM3225-R18H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R33H

LLM3225-R33H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R56H

LLM3225-R56H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

LLM3225-R68H

LLM3225-R68H - Wire Wound Chip Inductors - TOKO, Inc

2022-11-04 17:22:44

AscendCL快速入门——模型推理篇（上）

拿到？很遗憾，用上边这两个接口，我们是拿不到其指针的。其实也好理解，对于很多开发者来讲，模型加载进来之后，只要返回给开发者一个modelId，开发者能调用模型进行推理就够了，模型在内存中存放在哪里并不

2023-08-24 11:04:14

C++演示中的推理速度比Python演示中的推理速度更快是为什么？

在同一主机机上采用相同型号的 Ran Object Detection C++ 演示和对象检测 Python 演示。 C++ 演示中的推理速度比 Python 演示中的推理速度更快。

2023-08-15 06:52:29

DSP 速度曲线规划电机

请教大家，如何做DSP 电机的速度曲线规划？ eg：做一个梯形的速度曲线规划，有一个先加速，再匀速，再减速的过程。程序上如何实现呢？已经实现了位置环控制。本人想在位置环内规划速度曲线，使得它到位能够准确。

2016-04-25 18:04:35

Dllite_micro （轻量级的 AI 推理框架）

DLLite-Micro 是一个轻量级的 AI 推理框架，可以为 OpenHarmony OS 的轻量设备和小型设备提供深度模型的推理能力DLLite-Micro 向开发者提供清晰、易上手的北向接口

2021-08-05 11:40:11

HarmonyOS：使用MindSpore Lite引擎进行模型推理

场景介绍 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件设备 AI 模型推理的功能，目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。本文介绍

2023-12-14 11:41:13

YOLOv5s算法在RK3399ProD上的部署推理流程是怎样的

YOLOv5s算法在RK3399ProD上的部署推理流程是怎样的？基于RK33RK3399Pro怎样使用NPU进行加速推理呢？

2022-02-11 08:15:55

【飞凌RK3568开发板试用体验】RKNN模型推理测试

研的人工智能协处理器NPU，并且提供了RKNN-Toolkit。今天就介绍一下如何使用RKNN模型进行推理应用程序开发。一、推理应用程序的基本流程RKNN 是瑞芯微（Rockchip） NPU平台

2022-12-08 19:06:16

使用rk3588多npu推理模型，模型总推理时间还增加了，这怎么解释

使用rk3588多npu推理模型，模型总推理时间还增加了，这怎么解释

2023-11-05 18:22:42

充分利用Arm NN进行GPU推理

Arm拥有跨所有处理器的计算IP。而且，无论您要在GPU，CPU还是NPU上进行ML推理，都可以在一个通用框架下使用它们：Arm NN。Arm NN是适用于CPU，GPU和NPU的开源推理引擎。它

2022-04-11 17:33:06

分享一款能连Arduino仿真的电化学软件

分享一款能连Arduino仿真的电化学软件，能模拟多种检测方法，适合仿真环境文件如下：

2018-03-23 15:00:30

分享一款能连arduino仿真的电化学软件

分享一款能连arduino仿真的电化学软件，能模拟多种检测方法，适合仿真环境文件如下：

2023-10-10 06:52:48

压缩模型会加速推理吗？

你好我使用 STM32CUBE-AI v5.1.2 ApplicationTemplate 将简单的 CNN 导入到 STM32L462RCT我发现压缩模型对推理时间没有影响。aiRun 程序在 8

2023-01-29 06:24:08

图像预处理和改进神经网络推理的简要介绍

为提升识别准确率，采用改进神经网络，通过Mnist数据集进行训练。整体处理过程分为两步：图像预处理和改进神经网络推理。图像预处理主要根据图像的特征，将数据处理成规范的格式，而改进神经网络推理主要用于输出结果。整个过程分为两个步骤：图像预处理和神经网络推理。需要提前安装Tengine框架，

2021-12-23 08:07:33

在 ubuntu 上安装腾讯推理框架 ncnn 的方法记录

本教程详细记录了在 ubuntu 上安装腾讯推理框架 ncnn 的方法。

2021-12-14 07:49:57

基于SRAM的方法可以加速AI推理

基于SRAM的方法可加速AI推理

2020-12-30 07:28:28

如何规划PCB设计布线层数

　　有规划的人生，会让人感觉心里踏实;自然，有规划的设计，也是更让人信服，layout工程师也可以少走弯路。　　板的层数一般不会事先确定好，会由工程师综合板子情况给出规划，总层数由信号层数加上电源

2018-09-20 10:56:31

如何在OpenVINO工具包中使用带推理引擎的blob？

无法确定如何在OpenVINO™工具包中使用带推理引擎的 blob。

2023-08-15 07:17:58

如何提高YOLOv4模型的推理性能？

使用 PyTorch 对具有非方形图像的 YOLOv4 模型进行了训练。将权重转换为 ONNX 文件，然后转换为中间表示（IR）。无法确定如何获得更好的推理性能。

2023-08-15 06:58:00

工程师喊话说：人生规划，还不如把PCB设计布线层数规划好！

2016年年尾敲响警钟规划这是一个在我们不同人生阶段一直都狠刷存在感的词汇。截止到目前为止都不能抛开它另存独活高中的时候父母会问你报考什么大学大学的时候亲朋好友会问你想从事什么工作工作之后HR会问你

2016-12-10 14:09:52

深度剖析OpenHarmony AI调度管理与推理接口

1 简介AI任务管理与统一的推理能力提供了接口的统一标准系统上CPU提供了AI任务调度管理的能力，对AI的能力进行了开放的推理和推理，同时，提供了一个不同的生命周期框架层级的应用程序。推理接口

2022-03-25 11:15:36

用labview能实现挖掘机机器人的轨迹规划吗？

现在做毕业设计，是基于labview的挖掘机器人轨迹规划与控制，就是用labview来实现轨迹规划的编程，请教各位，这容易实现吗？该从哪入手啊？谢谢了！

2013-04-01 14:32:01

请问TF卡真的能影响到USB驱动吗？

我用金士顿的TF卡做系统盘就USB接口就可以用，用一个叫LD和诺的TF的时候USB口就不能用，同样的镜像，同样的烧录，同样的板子，我想问下TF卡真的能影响到USB驱动吗？

2019-09-26 23:03:19

请问一下rknn多图推理参数该怎样去设置呢

rknn多图推理参数设置然后进行推理，推理的结果会把三张图片的结果合并在一个list中，需要我们自己将其分割开：最终其结果和单张推理的结果是相同的

2022-07-22 15:38:02

请问硬件仿真的速度能达到甚至超过软件仿真的速度吗？

我发现硬件仿真的速度一般要低于软件仿真的速度，我想主要是因为cache miss引起的（在使能cache的情况下），请问，除了cache miss影响之外，还有哪些因素影响硬件仿真的速度，假若处理

2020-05-25 09:13:34

请问硬件仿真的速度能达到甚至超过软件仿真的速度吗？

我发现硬件仿真的速度一般要低于软件仿真的速度，我想主要是因为cache miss引起的（在使能cache的情况下），请问，除了cache miss影响之外，还有哪些因素影响硬件仿真的速度，假若处理好的话有没有可能硬件仿真速度大于软件仿真速度？在硬件上需要注意哪些影响硬件仿真速度的关键因素？

2019-07-26 17:18:28

这个电路上芯片丝印字看不清已经上电路图请问能推理来吗？

这个电路上芯片丝印字看不清请问能推理来吗？整个图

2022-05-08 23:23:59

基于事例推理的数字化城市规划设计系统初探

摘要:结合数字化技术的发展，探讨传统城市规划方法的数字化实现.利用人工智能技术特别是基于事例推理(Case一Based Reasoning)技术，存贮和运用专家的设计经验来实现数字化城市规

2009-01-09 16:49:07

19

基于双向混合推理机的知识库系统

针对目前知识库系统推理效率不高和信息可信度不强的特点，本文结合正向推理和反向推理的优势，取长补短，提出了一种双向混合推理机。本文还设计了一个原型系统，采用知识

2010-07-26 17:57:06

33

第九讲机器人轨迹规划

本内容是有关于工业机器人的轨迹规划与计算推理过程。

2016-04-28 10:27:15

0

基于案例推理的高维解空间适应性问题研究

利用案例推理对指挥实体任务规划过程中决策问题求解方法的修正过程是该方法推理过程中最困难的阶段，尤其当决策问题解空间是多维的情况下。文章讨论了指挥实体任务规划过程中高维决策空间的修正问题，并提出了可行

2017-12-11 11:48:35

0

贝叶斯IP网络拥塞链路推理

针对CLINK算法在路由改变时拥塞链路推理性能下降的问题，建立一种变结构离散动态贝叶斯网模型，通过引入马尔可夫性及时齐性假设简化该模型，并基于简化模型提出一种IP网络拥塞链路推理算法（VSDDB

2018-01-16 18:46:26

0

怎么使用蒸馏法对低精度推理出浮点网络进行高保真的转换？

神经网络加速器快速、低功耗推理的一个主要挑战是模型的大小。近年来，随着模型尺寸的增加，推理时间和每次推理能耗的相应增加，神经网络向更深的神经网络发展，激活和系数也在增加。这在资源受限的移动和汽车

2021-06-19 14:42:16

1399

NVIDIA发布Riva语音AI和大型LLM软件

　　它包括Megatron方面的进步，这是一个由 NVIDIA 研究人员领导的开源项目，旨在开发有效培训法学硕士的技术。企业可以使用 NeMo Megatron 定制 LLM ，如 Megatron 530B ，并使用 NVIDIA Triton 推理服务器跨多个 GPU 和节点进行部署。

2022-04-01 16:27:36

10987

如何使用Triton进行高效的推理部署

一个完整的医疗影像推理流程一般包含数据的前处理、AI 推理以及数据后处理这几部分。

2022-04-10 15:06:09

2396

基于e-CARE的因果推理相关任务

因果推理是人类的一项核心认知能力。借助因果推理能力，人类得以理解已观测到的各种现象，并预测将来可能发生的事件。然而，尽管当下的各类因果推理模型已经在现有的因果推理数据集上取得了令人印象深刻的性能，然而，这些模型与人类的因果推理能力相比仍存在显著差距。

2022-05-16 16:21:26

1081

使用多个推理芯片需要仔细规划

过去两年，推理芯片业务异常忙碌。有一段时间，似乎每隔一周就有另一家公司推出一种新的更好的解决方案。尽管所有这些创新都很棒，但问题是大多数公司不知道如何利用各种解决方案，因为他们无法判断哪一个比另一个

2022-07-21 10:11:59

486

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此，现阶段，如何利用LLM做一些多模态任务还是有一定的研究价值的。

2023-05-11 17:09:16

648

如何利用LLM做一些多模态任务

本文整理了近两年来基于LLM做vision-lanuage任务的一些工作，并将其划分为4个类别：

2023-05-17 15:02:35

575

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言模型，如 GPT-4、PALM-E 和 LLaVA，已经探索了 LLM 理解多模态信息的能力。然而，当前

2023-05-22 14:38:06

417

LLM性能的主要因素

现在是2023年5月，截止目前，网络上已经开源了众多的LLM，如何用较低的成本，判断LLM的基础性能，选到适合自己任务的LLM，成为一个关键。本文会涉及以下几个问题：影响LLM性能的主要因素

2023-05-22 15:26:20

1148

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口

2023-05-22 15:57:33

466

如何最好地使用所有可用的 LLM 工具

鉴于价格和质量的广泛差异，从业者可能很难决定如何最好地使用所有可用的 LLM 工具。此外，如果服务中断，则依赖单个 API 提供者是不可靠的，这可能发生在意外高需求的情况下。

2023-05-23 17:22:30

525

中国研究人员提出StructGPT，提高LLM对结构化数据的零样本推理能力

尽管结构化数据的体量往往非常巨大，但不可能容纳输入提示中的所有数据记录（例如，ChatGPT 的最大上下文长度为 4096）。将结构化数据线性化为 LLM 可以轻松掌握的语句是解决此问题的简单方法。工具操作技术激励他们增强 LLM 解决上述困难的能力。

2023-05-24 16:02:16

2156

LLM在各种情感分析任务中的表现如何

最近几年，GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务，特别是在zero-shot和few-shot方面表现出它们强大的性能。因此，情感分析(SA)领域也必然少不了LLM的影子

2023-05-29 17:24:41

1379

基准数据集(CORR2CAUSE)如何测试大语言模型(LLM)的纯因果推理能力

因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣，但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM

2023-06-20 15:39:05

1223

基于Transformer的大型语言模型（LLM）的内部机制

工作原理变得越来越重要。更好地理解这些模型是如何做出决策的，这对改进模型和减轻其故障（如幻觉或推理错误）至关重要。众所周知，最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的学习能力通常归功于 Transformer 架构，特别

2023-06-25 15:08:49

991

最新综述！当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

LLM 是黑箱模型，缺乏可解释性，因此备受批评。LLM 通过参数隐含地表示知识。因此，我们难以解释和验证 LLM 获得的知识。此外，LLM 是通过概率模型执行推理，而这是一个非决断性的过程。对于 LLM 用以得出预测结果和决策的具体模式和功能，人类难以直接获得详情和解释。

2023-07-10 11:35:00

1354

适用于各种NLP任务的开源LLM的finetune教程~

ChatGLM2-6b是清华开源的小尺寸LLM，只需要一块普通的显卡(32G较稳妥)即可推理和微调，是目前社区非常活跃的一个开源LLM。

2023-07-24 09:04:22

1311

LLM对程序员的冲击和影响

LLM 对软件研发的单点提效，我之前录制过一段视频，大家可以直接观看，里面有详细的演示，我在这里就不再赘述了。

2023-07-24 15:39:06

766

LLM的长度外推浅谈

苏神最早提出的扩展LLM的context方法，基于bayes启发得到的公式

2023-07-28 17:37:43

1484

MLC-LLM的编译部署流程

MLC-LLM部署在各种硬件平台的需求，然后我就开始了解MLC-LLM的编译部署流程和RWKV World模型相比于MLC-LLM已经支持的Raven系列模型的特殊之处。 MLC-LLM的编译部署流程

2023-09-04 09:22:46

1569

检索增强LLM的方案全面的介绍

分分享了 ChatGPT 这类模型是如何一步一步训练的，后半部分主要分享了 LLM 模型的一些应用方向，其中就对检索增强 LLM 这个应用方向做了简单介绍。

2023-09-08 16:39:55

799

从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM

要理解大语言模型（LLM），首先要理解它的本质，无论预训练、微调还是在推理阶段，核心都是next token prediction，也就是以自回归的方式从左到右逐步生成文本。

2023-09-19 16:25:47

519

mlc-llm对大模型推理的流程及优化方案

比如RWKV和给定的device信息一起编译为TVM中的runtime.Module（在linux上编译的产物就是.so文件）提供mlc-llm的c++推理接口调用。

2023-09-26 12:25:55

383

Continuous Batching：解锁LLM潜力！让LLM推断速度飙升23倍，降低延迟！

本文介绍一篇 LLM 推理加速技术相关的文章，值得读一读。 LLMs 在现实应用中的计算成本主要由服务成本所主导，但是传统的批处理策略存在低效性。在这篇文章中，我们将告诉

2023-10-15 20:25:02

292

Nvidia 通过开源库提升 LLM 推理性能

加利福尼亚州圣克拉拉——Nvidia通过一个名为TensorRT LLM的新开源软件库，将其H100、A100和L4 GPU的大型语言模型(LLM)推理性能提高了一倍。正如对相同硬件一轮又一轮改进

2023-10-23 16:10:19

284

周四研讨会预告 | 注册报名 NVIDIA AI Inference Day - 大模型推理线上研讨会

由 CSDN 举办的 NVIDIA AI Inference Day - 大模型推理线上研讨会，将帮助您了解 NVIDIA 开源大型语言模型（LLM）推理加速库 TensorRT-LLM 及其功能

2023-10-26 09:05:02

174

现已公开发布！欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM ，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的推理

2023-10-27 20:05:02

478

Hugging Face LLM部署大语言模型到亚马逊云科技Amazon SageMaker推理示例

本篇文章主要介绍如何使用新的Hugging Face LLM推理容器将开源LLMs，比如BLOOM大型语言模型部署到亚马逊云科技Amazon SageMaker进行推理的示例。我们将部署12B

2023-11-01 17:48:42

422

点亮未来：TensorRT-LLM 更新加速 AI 推理性能，支持在 RTX 驱动的 Windows PC 上运行新模型

微软 Ignite 2023 技术大会发布的新工具和资源包括 OpenAI Chat API 的 TensorRT-LLM 封装接口、RTX 驱动的性能改进 DirectML for Llama

2023-11-16 21:15:03

408

使用MLC-LLM支持RWKV-5推理的过程思考

对LLM的理解比较有限，从代码实现的角度来说，RWKV的状态和KV Cache不同，不依赖序列长度，这让RWKV模型在各种长度下运行内存和运行速度都是趋于稳定的，所以我感觉工程价值是比基于Transformer架构比如Llama更好的，部署的性价比会天然更优。

2023-11-19 15:58:57

502

LLM的幻觉问题最新综述

幻觉被描述为无意义或不忠实于所提供源内容的生成内容。根据与源内容的矛盾，这些幻觉又进一步分为内在幻觉和外在幻觉。在LLMs中，幻觉的范围包含了一个更广泛、更全面的概念，主要集中在事实错误上。本文重新定义了幻觉的分类，为LLM应用程序提供了一个更定制的框架。

2023-11-22 17:40:41

467

基于单一LLM的情感分析方法的局限性

LLM的发展为情感分析任务带来的新的解决方案。有研究人员使用LLM，在上下文学习(in-context learning, ICL)的范式下，仅使用少量的训练示例就能够实现与监督学习策略旗鼓相当的性能表现。

2023-11-23 11:14:27

322

澎峰科技发布大模型推理引擎PerfXLLM

自从2020年6月OpenAI发布chatGPT之后，基于 Transformer 网络结构的语言大模型（LLM）引发了全世界的注意与追捧，成为了人工智能领域的里程碑事件。但大模型推理所需

2023-11-25 15:35:01

383

Long-Context下LLM模型架构全面介绍

随着ChatGPT的快速发展，基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路，并已应用于知识库、人机界面和动态代理等不同领域。然而，存在一个普遍

2023-11-27 17:37:36

440

怎样使用Accelerate库在多GPU上进行LLM推理呢？

大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些模型在规模和复杂性上的增长，推理的计算需求也显著增加。

2023-12-01 10:24:52

396

用上这个工具包，大模型推理性能加速达40倍

作者：英特尔公司沈海豪、罗屿、孟恒宇、董波、林俊编者按：只需不到9行代码，就能在CPU上实现出色的LLM推理性能。英特尔 Extension for Transformer 创新

2023-12-01 20:40:03

552

如何利用OpenVINO加速LangChain中LLM任务

LangChain 是一个高层级的开源的框架，从字面意义理解，LangChain 可以被用来构建 “语言处理任务的链条”，它可以让AI开发人员把大型语言模型（LLM）的能力和外部数据结合起来，从而

2023-12-05 09:58:14

325

全面解析大语言模型（LLM）

internal feedback：使用LLM去预测生成的plan取得成功的概率、Tree of Thought去对比不同的plan（有点类似AlphaGo的蒙特卡诺搜索的意思）、对中间结果进行评估并作为长期记忆存储

2023-12-05 14:49:47

857

一文详解LLM模型基本架构

LLM 中非常重要的一个概念是 Token，我们输入给 LLM 和它输出的都是 Token。Token 在这里可以看做语言的基本单位，中文一般是词或字（其实字也是词）。比如：”我们喜欢 Rust

2023-12-25 10:38:38

657

优于10倍参数模型！微软发布Orca 2 LLM

微软发布 Orca 2 LLM，这是 Llama 2 的一个调优版本，性能与包含 10 倍参数的模型相当，甚至更好。

2023-12-26 14:23:16

247

ChatGPT是一个好的因果推理器吗？

因果推理能力对于许多自然语言处理（NLP）应用至关重要。最近的因果推理系统主要基于经过微调的预训练语言模型（PLMs），如BERT [1] 和RoBERTa [2]。

2024-01-03 09:55:37

420

基于LLM的表格数据的大模型推理综述

面向表格数据的推理任务，在计算机领域，特别是自然语言处理（Natural Language Processing，NLP）领域的研究中扮演着重要角色[1]。该任务要求模型在给定一个或多个表格的情况下，按照任务要求，生成相应的结果作为答案（例如：表格问答、表格事实判断）。

2024-01-08 09:56:14

357

安霸发布N1系列生成式AI芯片支持前端设备运行本地LLM应用

单颗 SoC 支持 1 至 340 亿参数的多模态大模型（Multi-Modal LLM）推理，实现前端低功耗生成式 AI。

2024-01-09 15:19:33

597

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

这个问题随着LLM规模的增大愈发严重。并且，如下左图所示，目前LLM常用的自回归解码（autoregressive decoding）在每个解码步只能生成一个token。这导致GPU计算资源利用率

2024-01-29 15:54:24

261

100%在树莓派上执行的LLM项目

ChatGPT的人性口语化回复相信许多人已体验过，也因此掀起一波大型语言模型（Large Language Model, LLM）热潮，LLM即ChatGPT背后的主运作技术，但LLM运作需要庞大运算力，因此目前多是在云端（Cloud）上执行。

2024-02-29 16:29:59

476

深度探讨VLMs距离视觉演绎推理还有多远？

通用大型语言模型（LLM）推理基准：研究者们介绍了多种基于文本的推理任务和基准，用于评估LLMs在不同领域（如常识、数学推理、常识推理、事实推理和编程）的性能。这些研究包括BIG-bench、HELM、SuperGLUE和LAMA等。

2024-03-19 14:32:55

69

已全部加载完成