Recursive prompting增强语言模型方案

1 简介‍‍‍‍‍‍‍‍‍

有的工作尝试引出中间推理步骤，通过将复杂问题显示分解为多个子问题，从而以分而治之的方式来解决。考虑到组合泛化对于语言模型有一定的挑战，这种递归方法的对于复杂任务特定有用。根据解决子问题的方式可以分为串行跟并行两种，串行的方式每个子问题相互依赖，前面子问题的答案会加入到后续子问题的prompt中，生成后续子问题的答案，而并行的方式则各个子问题的答案生成是独立的，最后再将多个子问题的答案融合到一起。

2 并行式 ‍‍‍‍‍‍‍‍‍

DECOMPRC

在阅读理解场景下，多跳阅读理解要求从众多段落中进行推理跟归纳。于是出现了新的方案DECOMPRC，将多跳阅读理解问题分解成多个相对简单的子问题（现有阅读理解模型可以回复），从而提高阅读理解准确性。

图1: DECOMPRC示例

整个方案分为三个部分

a) 将原始的多跳阅读理解问题分解为多个单跳子问题。可以根据多个不同的推理类型得到多种分解方式，这里需要根据不同推理类型分别训练多个用于问题分解的模型，对于每个分解模型，采用Point的方式，利用BERT对原问题进行预测，得到几个关键位置，利用关键位置原文本进行划分，再加上一些规则手段，就可以得到对应的子问题了。例如预测出一个中间位置，就可以将原问题分割成两部分，第一部分作为第一个子问题，第二部分作为第二个子问题，考虑到第二部分可能都是陈述句，就将前面的词转换成which。这里将分解模型简化为一个span prediction问题，只需要400个训练数据就得到很不错的效果了。

b) 在第一步会产生多种问题分解方式，对于每一种分解方式，利用单跳阅读理解模型回复每个子问题，然后根据不同分分解类型的特性得到最终的答案。

c) 对于每一种分解方式，将原问题，分解类型，该分解方式下的问题跟对应答案一同作为模型输入，预测哪种分解方式对应的结果最合理，将该分解方式下的答案作为多跳阅读理解问题的答案。

整个流程可以简单理解为，系统提供了几种将多跳问题分解为子问题的方式，分别计算每个分解方式的合理性，再选择其中最优的分解方式对应的答案作为原问题最终答案。

在QA场景下，通过将复杂问题分解为相对简单的子问题（QA模型可以回复），从而提高问答的效果。具体到多跳QA问题上，现将复杂问题分解为多个子问题，利用单跳QA模型生成全部子问题的答案并融合到一起作为复杂问题的答案。

图2: QA场景下的recursive prompting方案示例‍

整个系统分为三个部分

a) 无监督问题分解，将原问题分解为多个相对简单的子问题。这里需要训练一个分解模型，用于将复杂问题分解成多个子问题。由于这个任务下的监督训练数据构造成本高昂，于是提出了一种无监督的训练数据构造方式，对于每一个复杂问题q，从语料集Q中检索召回得到N个对应的简单问题s作为q的子问题，N的取值可以依赖于具体任务或者具体问题。我们希望这些简单问题在某些方面跟q足够相似，同时这些简单问题s之间有明显差异。从而构造出复杂问题跟子问题序列之间的伪pair对（q, [s1,…sN]）,用于训练分解模型。

b) 生成子问题回复，利用现有的QA模型，去生成各个子问题的回复。这里不对QA模型有太多限制，只要它能正确回复语料库S中的简单问题即可，所以尽量采用在S中效果优异的QA模型。

c) 生成复杂问题回复，将复杂问题，各个子问题跟对应回复一同作为QA模型的输入，生成复杂问题的回复。这里的QA模型可以采用跟第二步一样的模型，只要将输入做对应调整即可。

图3: QA场景下的recursive prompting方案示例

图4: 实验结果对比

从实验效果上可以明显看出这些问题分解的方式能够显著提升模型效果。

串行式

SEQZERO

如何利用大规模语言模型将自然语言问题转化为SQL语句？SEQZERO就是一种解法。由于SQL这种规范语言的复合结构，SQL语句很多情况下会显得复杂且冗长，要让语言模型学会生草本跟SQL语言需要大量训练数据，于是出现了一种基于few-shot的方法SEQZERO。

一个SQL语句包括多个部分，例如From **，SELCT **， WHERE **，只要能从自然语言问题中提出这几个部分对应的元素，然后通过规则可以转化为对应的SQL语句。于是SEQZERO的做法就是先利用语言模型预测得到其中一个元素，将该元素加入到原问题中生成下个元素，重复此操作直到生成全部元素，然后通过规则将所有结果组合起来的就得到对应的SQL语句。在预测每个元素的过程中，为了得到更加强大的泛化能力，采用了few-shot跟zero-shot的集成策略。

图5: SEQZERO示例

Least-to-most

虽然chain-of-thought prompting在很多自然语言推理任务有显著效果，但是当问题比prompt里的示例更难时，它的表现会很糟糕。举个例子，比如任务抽取文本每个单词最后一个字母，prompt的示例输入是3个单词，输入相对较短，但是问题的长度却是10个单词，这种情况下chain-of-thought prompting的策略就会失效。于是提出了Least-to-most，通过两阶段的prompting来解决这种问题，第一阶段通过prompting将原问题分解为一系列子问题，第二阶段则是通过prompting依次解决子问题，前面子问题的问题跟答案会加入到候选子问题的模型输入中去，方便语言模型更好地回复候选子问题。由于这两个阶段任务有所区别，对应的prompt内容也不同。

图6: Least-to-most示例

4 其他

Successive prompting

前面几种方法都是一开始就将问题分解为多个子问题，然后在通过串行或者并行的方式回复所有子问题，而successive prompting则是每次分解出一个子问题，让语言模型去回复该子问题，再将该子问题以及对应答案加入到模型输入种，进而分解出下一个子问题，重复这个过程直到没有新的子问题生成，那么最后一个子问题的答案就是原问题的答案。

图7: successive prompting示例

5 总结‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

Recursive prompting这种思路其实蛮好理解的，目前大规模语言模型处理这些简单任务效果是很不错的，但是复杂问题就比较糟糕了，一方面构造这些复杂问题相关数据的工作很艰巨，另一方面直接让语言模型在这些复杂问题数据上训练效果也很一般（想想为什么有些数据集上sota指标也很低）。但是让语言模型学会根据具体问题进行拆解，通过将复杂问题分解为相对简单的子问题，采用分而治之的方式，再将子问题答案汇总，不就得到原问题的答案了嘛。这也跟我们人类的行为模式更加接近，对于复杂任务，我们会通过合理规划将其划分为具体多个子任务，然后再去一一解决这些子任务。想想中华民族伟大复兴的道路，不也是通过一个又一个的五年计划逐步向前推进的嘛。

编辑：黄飞

阅读全文

语言模型(9992) 语言模型(9992)
无监督学习(2732) 无监督学习(2732)

拆解大语言模型RLHF中的PPO算法

由于本文以大语言模型 RLHF 的 PPO 算法为主，所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步，即 SFT Model 和 Reward Model 的训练过程。另外因为本文不是纯讲强化学习的文章，所以我在叙述的时候不会假设你已经非常了解强化学习了。

2023-12-11 18:30:49

1151

一文详解知识增强的语言预训练模型

等，在实际应用场景中效果不好。为了解决这个问题，将知识注入到PLMs中已经成为一个非常活跃的研究领域。本次分享将介绍三篇知识增强的预训练语言模型论文，分别通过基于知识向量、知识检索以及知识监督的知识注入方法来增强语言预训练模型。

2022-04-02 17:21:43

8765

如何利用Transformers了解视觉语言模型

将模型称为 “视觉语言” 模型是什么意思？一个结合了视觉和语言模态的模型？但这到底是什么意思呢？

2023-03-03 09:49:37

665

大型语言模型在关键任务和实际应用中的挑战

大型语言模型的出现极大地推动了自然语言处理领域的进步，但同时也存在一些局限性，比如模型可能会产生看似合理但实际上是错误或虚假的内容，这一现象被称为幻觉（hallucination）。幻觉的存在使得

2023-08-15 09:33:45

1090

如何在Saber中使用C语言进行建模呢？

Saber不仅支持MAST语言和VHDL‐AMS语言建立模型，也支持C语言建立器件模型，这对熟悉C语言编程的用户带来了很大的方便和实用。采用C语言建立的模型可以像用硬件语言建立的模型一样保存和使用。

2023-12-05 11:30:42

454

使用Huggingface创建大语言模型RLHF训练流程

ChatGPT已经成为家喻户晓的名字，而大语言模型在ChatGPT刺激下也得到了快速发展，这使得我们可以基于这些技术来改进我们的业务。

2023-12-06 17:02:27

719

大语言模型背后的Transformer，与CNN和RNN有何不同

电子发烧友网报道（文/李弯弯）近年来，随着大语言模型的不断出圈，Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习模型，最早于2017年由谷歌

2023-12-25 08:36:00

1282

2023年科技圈热词“大语言模型”，与自然语言处理有何关系

电子发烧友网报道（文/李弯弯）大语言模型（LLM）是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译

2024-01-02 09:28:33

1267

400mhz语言视频传输方案怎么实现？

400mhz语言视频传输方案怎么实现

2023-10-17 07:22:27

语言模型和N-gram基本原理介绍

DeepLearning笔记语言模型和 N-gram

2019-07-23 17:13:48

HarmonyOS/OpenHarmony应用开发-Stage模型ArkTS语言AbilityStage

进行初始化时回调。context接口示例：*附件：HarmonyOSOpenHarmony应用开发-stage模型ArkTS语言AbilityStage.docx

2023-04-07 15:16:35

LabVIEW进行癌症预测模型研究

，然后将得到的特征向量输入到SVM中进行分类。 LabVIEW是一种视觉编程语言，与传统的文本编程语言不同，更适合于进行复杂数据分析和预测模型的开发。 LabVIEW使用数据流模型，可以并行处理多个过程

2023-12-13 19:04:23

【书籍评测活动NO.30】大规模语言模型：从理论到实践

2022年11月，ChatGPT的问世展示了大模型的强大潜能，对人工智能领域有重大意义，并对自然语言处理研究产生了深远影响，引发了大模型研究的热潮。距ChatGPT问世不到一年，截至2023年10

2024-03-11 15:16:39

【书籍评测活动NO.31】大语言模型：原理与工程实践

深远影响，尤其在优化业务流程和重塑组织结构方面。然而，在研究和实践过程中，我们遇到了一个主要挑战：市场上缺乏大语言模型在实际应用方面的资料。现有的资料多聚焦于理论研究，而具体的实践方法多被保密，难以获得

2024-03-18 15:49:46

关于自然语言处理之54 语言模型(自适应)

自然语言处理——54 语言模型(自适应)

2020-04-09 08:20:30

图像的对数增强问题

如图前两张为一张图片的R通道进行增强的小程序，可以实现读片的增强，我想问各路大神，如果单纯地从数组方面进行图像增强，如对数增强，那该怎么操作呢，就在第三章图里面，就对一个数组进行处理，后面再由数组转变为图片。

2017-09-26 17:13:37

求增强电源模块系统稳定性的几个方案

如何提升EMC性能？求增强电源模块系统稳定性的几个方案

2021-03-16 06:48:24

测试蓝牙增强数据率产品的创新解决方案

2019-09-11 14:07:11

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

2020-04-16 11:11:25

新的标准模型下基于身份的环签名方案

该文提出了一种新的基于身份的环签名方案，并在标准模型下证明其能抵抗签名伪造攻击，且具有无条件匿名性。与现有标准模型下基于身份的环签名方案相比，新方案具有更短的

2009-11-13 11:49:03

重新增强高可用性缩减IT基础设施模型

重新增强高可用性缩减 IT 基础设施模型

2016-01-06 17:33:54

重新增强高可用性缩减 IT 基础设施模型

voico 重新增强高可用性缩减 IT 基础设施模型

2016-06-02 15:41:58

唇语识别中的话题相关语言模型研究_王渊

2017-03-19 11:28:16

一种新的动态微观语言竞争社会仿真模型

语言竞争传播演化现象是典型的不能假设、无法进行真实性实验的社会科学问题，而建立在社会仿真模型基础上的计算实验是可行的方案。利用基于Agent的社会圈子网络理论并引入语言的内部词汇结构给出一种新的动态

2017-11-23 15:41:04

自然语言处理常用模型解析

自然语言处理常用模型使用方法一、N元模型二、马尔可夫模型以及隐马尔可夫模型及目前常用的自然语言处理开源项目/开发包有哪些？

2017-12-28 15:42:30

5382

预训练语言模型设计的理论化认识

在这篇文章中，我会介绍一篇最新的预训练语言模型的论文，出自MASS的同一作者。这篇文章的亮点是：将两种经典的预训练语言模型（MaskedLanguage Model, Permuted

2020-11-02 15:09:36

2334

一种注意力增强的自然语言推理模型aESIM

在自然语言处理任务中使用注意力机制可准确衡量单词重要度。为此，提出一种注意力增强的自然语言推理模型aESM。将词注意力层以及自适应方向权重层添加到ESIM模型的双向LSTM网络中，从而更有

2021-03-25 11:34:15

知识图谱与BERT相结合助力语言模型

感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理，我们将沿此脉络前行，探索预训练语言模型的前沿技术，红框中为已介绍的文章，绿框中为本期介绍的模型，欢迎大家留言讨论交流。在之前的一期推送

2021-05-19 15:47:41

3355

如何向大规模预训练语言模型中融入知识？

本文关注于向大规模预训练语言模型（如RoBERTa、BERT等）中融入知识。

2021-06-23 15:07:31

3468

详解剖析Go语言调度模型的设计

golang的MPG调度模型是保障Go语言效率高的一个重要特性，本文详细介绍了Go语言调度模型的设计。前言 Please remember that at the end of the day

2021-07-26 10:12:43

1726

超大Transformer语言模型的分布式训练框架

NVIDIA Megatron 是一个基于 PyTorch 的框架，用于训练基于 Transformer 架构的巨型语言模型。本系列文章将详细介绍Megatron的设计和实践，探索这一框架如何助力

2021-10-11 16:46:05

2226

使用DeepSpeed和Megatron驱动MT-NLG语言模型

尽管巨型语言模型正在推动语言生成技术的发展，但它们也面临着偏见和毒性等问题。人工智能社区正在积极研究如何理解和消除语言模型中的这些问题，包括微软和 NVIDIA 。

2022-04-17 11:25:34

1946

Multilingual多语言预训练语言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM预训练多语言模型，整体思路基于BERT，并提出了针对多语言预训练的3个优化任务。后续很多多语言预训练工作都建立在XLM的基础上，我们来详细看看XLM的整体训练过程。

2022-05-05 15:23:49

2521

一种基于乱序语言模型的预训练模型-PERT

由于乱序语言模型不使用[MASK]标记，减轻了预训练任务与微调任务之间的gap，并由于预测空间大小为输入序列长度，使得计算效率高于掩码语言模型。PERT模型结构与BERT模型一致，因此在下游预训练时，不需要修改原始BERT模型的任何代码与脚本。

2022-05-10 15:01:27

1173

预训练语言模型的字典描述

今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型-DictBERT，全名为《Dictionary Description Knowledge

2022-08-11 10:37:55

866

NVIDIA NeMo最新语言模型服务帮助开发者定制大规模语言模型

NVIDIA NeMo 大型语言模型（LLM）服务帮助开发者定制大规模语言模型；NVIDIA BioNeMo 服务帮助研究人员生成和预测分子、蛋白质及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平台训练大型语言模型

韩国先进的移动运营商构建包含数百亿个参数的大型语言模型，并使用 NVIDIA DGX SuperPOD 平台和 NeMo Megatron 框架训练该模型。

2022-09-27 09:24:30

915

摘要模型理解或捕获输入文本的要点

输入文本的要点；（2）模型过度依赖语言模型，生成流畅但不充分的单词。在本文研究中，提出了一个忠实增强摘要模型（FES），旨在解决这两个问题，提高抽象摘要的忠实度。对于第一个问题，本文使用问答（QA）来检查编码器是否完全掌握输入文档，并

2022-11-01 11:37:57

692

CogBERT：脑认知指导的预训练语言模型

另一方面，从语言处理的角度来看，认知神经科学研究人类大脑中语言处理的生物和认知过程。研究人员专门设计了预训练的模型来捕捉大脑如何表示语言的意义。之前的工作主要是通过明确微调预训练的模型来预测语言诱导的大脑记录，从而纳入认知信号。

2022-11-03 15:07:08

707

谷歌提出Flan-T5，一个模型解决所有NLP任务

（需要有Decoder部分，所以「不包括BERT这类纯Encoder语言模型」），论文的核心贡献是提出一套多任务的微调方案（Flan），来极大提升语言模型的泛化性。

2022-11-24 11:21:56

1040

基于视频语言模型LiteVL的无参的特征池化方法

我们提出了LiteVL，这是一种视频语言模型，它无需大量的视频语言预训练或目标检测器。LiteVL从预先训练的图像语言模型BLIP中继承了空间视觉信息和文本信息之间已经学习的对齐。然后，我们提出

2022-12-05 10:54:49

413

介绍几篇EMNLP'22的语言模型训练方法优化工作

来自：圆圆的算法笔记今天给大家介绍3篇EMNLP 2022中语言模型训练方法优化的工作，这3篇工作分别是：针对检索优化语言模型：优化语言模型训练过程，使能够生成更合适的句子表示用于检索

2022-12-22 16:14:56

679

基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

InstaDeep、慕尼黑工业大学（TUM）和 NVIDIA 之间的合作推动了面向基因组学的多超级计算规模的基础模型开发进程。这些模型在大量预测任务（例如启动子和增强子位点预测）中展示了最先进的性能

2023-01-17 01:05:04

444

支持Python和Java的BigCode开源轻量级语言模型

BigCode 是一个开放的科学合作组织，致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型，该模型拥有 11 亿个参数

2023-01-17 14:29:53

692

有了Fine-tune-CoT方法，小模型也能做推理，完美逆袭大模型

如果给语言模型生成一些 prompting，它还向人们展示了其解决复杂任务的能力。标准 prompting 方法，即为使用少样本的问答对或零样本的指令的一系列方法，已经被证明不足以解决需要多个推理步骤的下游任务（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

利用视觉+语言数据增强视觉特征

传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如何利用视觉+语言数据提升视觉任务（多模态->单模态）上性能的工作并不多。本文旨在针对上述问题提出一种简单高效的方法。

2023-02-13 13:44:05

727

大型语言模型有哪些用途？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下，可用于解决总结文章、编写故事和参与长对话等多种繁重工作。大型语言模型（LLM）是一种深度学习算法，可以

2023-02-23 19:50:04

3887

LeCun新作：全面综述下一代「增强语言模型」

最近图灵奖得主Yann LeCun参与撰写了一篇关于「增强语言模型」的综述，回顾了语言模型与推理技能和使用工具的能力相结合的工作，并得出结论，这个新的研究方向有可能解决传统语言模型的局限性，如可解释性、一致性和可扩展性问题。

2023-03-03 11:03:20

673

大型语言模型有哪些用途？大型语言模型如何运作呢？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。

2023-03-08 13:57:00

6989

翻译要失业了？谷歌正在开发“能够理解1000种常用语言”的AI模型

谷歌正在朝着构建支持1000种不同语言的人工智能语言模型的目标迈进……

2023-03-07 10:22:58

466

对标 ChatGPT，百度正式推出大语言模型“文心一言”！；日媒：与中国“脱钩”蔓延至软件开发

能力。从现场展示来看，文心一言某种程度上具有了对人类意图的理解能力。但李彦宏也多次提及，这类大语言模型还远未到发展完善的阶段，进步空间很大。百度同时公布了文心一言的邀请测试方案。3 月 16 日起，首批用户即可通过邀请测试码，在

2023-03-17 04:40:01

604

Firefly(流萤): 中文对话式大语言模型

Bloom是个多语言模型，由于需要兼容多语言，所以词表有25w之多，在中文领域中，大部分词表并不会被用到。我们通过删减冗余的词表，从多语言模型中提取常用的中英文词表，最终词表从25w减少到46145，缩减为原来的18.39%，在保留预训练知识的同时，有效减少参数量，提高训练效率。

2023-04-07 10:36:08

4319

使用LoRA和Hugging Face高效训练大语言模型

在本文中，我们将展示如何使用大语言模型低秩适配 (Low-Rank Adaptation of Large Language Models，LoRA) 技术在单 GPU 上微调 110 亿参数的 FLAN-T5 XXL 模型。

2023-04-14 17:37:40

1503

各种大语言模型是彻底被解封了

基础 LLM 基本信息表，GPT-style 表示 decoder-only 的自回归语言模型，T5-style 表示 encoder-decoder 的语言模型，GLM-style 表示 GLM 特殊的模型结构，Multi-task 是指 ERNIE 3.0 的模型结构

2023-04-20 11:25:44

1071

一套开源的大型语言模型（LLM）—— StableLM

对于任何没有额外微调和强化学习的预训练大型语言模型来说，用户得到的回应质量可能参差不齐，并且可能包括冒犯性的语言和观点。这有望随着规模、更好的数据、社区反馈和优化而得到改善。

2023-04-24 10:07:06

2168

AI大语言模型的原理、演进及算力测算专题报告

GPT是基于Transformer架构的大语言模型，近年迭代演进迅速。构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型，通过对大量语料数据进行无监督学习

2023-04-28 10:01:59

585

如何通过一个简单的方法来解锁大型语言模型的推理能力？

近来NLP领域由于语言模型的发展取得了颠覆性的进展，扩大语言模型的规模带来了一系列的性能提升，然而单单是扩大模型规模对于一些具有挑战性的任务来说是不够的

2023-05-10 11:13:17

1377

利用大语言模型做多模态任务

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

2023-05-10 16:53:15

701

大语言模型的多语言机器翻译能力分析

以ChatGPT为代表的大语言模型（Large Language Models, LLM）在机器翻译（Machine Translation, MT）任务上展现出了惊人的潜力。

2023-05-17 09:56:26

903

PyTorch教程9.3.之语言模型

电子发烧友网站提供《PyTorch教程9.3.之语言模型.pdf》资料免费下载

2023-06-05 09:59:00

PyTorch教程-9.3. 语言模型

9.3. 语言模型¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

268

浅析AI大型语言模型研究的发展历程

大型语言模型研究的发展有三条技术路线：Bert 模式、GPT 模式、混合模式。其中国内大多采用混合模式，多数主流大型语言模型走的是 GPT 技术路线，直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。

2023-06-09 12:34:53

3162

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型也包括

2023-06-15 16:36:11

277

一文读懂大语言模型

本文旨在让没有计算机科学背景的人对ChatGPT和类似的人工智能系统(GPT-3、GPT-4、Bing Chat、Bard等)的工作原理有一些了解。ChatGPT是一种基于*大语言模型(Large Language Model)* 的对话式AI聊天机器人。

2023-06-16 09:59:04

1036

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠性和可解释性。随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部

2023-06-25 15:08:49

991

大型语言模型的应用

大型语言模型（LLM）是一种深度学习算法，可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言模型（LLM）代表着 AI 领域的重大进步，并有望通过习得的知识改变

2023-07-05 10:27:35

1463

墨芯人工智能发布大模型算力方案的最新成果

7月6日，在世界人工智能大会WAIC上，墨芯人工智能发布了大模型算力方案的最新成果，宣告进入“千亿”时代：墨芯AI计算平台率先支持高达千亿参数的大语言模型，并在吞吐、延时等多项指标上表现优异，创下

2023-07-07 14:41:17

535

语言模型的发展历程基于神经网络的语言模型解析

简单来说，语言模型能够以某种方式生成文本。它的应用十分广泛，例如，可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上，语言模型的潜力远超以上常见任务。

2023-07-14 11:45:40

454

基于MNN在个人设备上流畅运行大语言模型该如何实现呢？

LLM（大语言模型）因其强大的语言理解能力赢得了众多用户的青睐，但LLM庞大规模的参数导致其部署条件苛刻；

2023-07-20 10:49:29

655

清华大学大语言模型综合性能评估报告发布！哪个模型更优秀？

近日，清华大学新闻与传播学院发布了《大语言模型综合性能评估报告》，该报告对目前市场上的7个大型语言模型进行了全面的综合评估。近年，大语言模型以其强大的自然语言处理能力，成为AI领域的一大热点。它们

2023-08-10 08:32:01

607

检索增强的语言模型方法的详细剖析

本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录，以此从问题设置、架构、应用、挑战等角度全面了解检索增强的语言模型，作为对后续工作的准备与入门，也希望能给大家带来

2023-08-21 09:58:01

1234

大语言模型“书生·浦语”多项专业评测拔头筹

最近，AI大模型测评火热，尤其在大语言模型领域，“聪明”的上限被不断刷新。商汤与上海AI实验室等联合打造的大语言模型“书生·浦语”（InternLM）也表现出色，分别在智源FlagEval

2023-08-25 13:00:02

315

FPGA加速语言模型如何重塑生成式人工智能

大语言模型的构建通常需要一个大规模的系统来执行该模型，这个模型会持续变大，在其发展到一定程度后，仅靠在CPU上的运行就不再具有成本、功耗或延迟的优势了。

2023-08-31 15:34:36

505

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些模型带来的硬件挑战，以及GPU和网络行业如何针对训练的工作负载不断优化硬件。

2023-09-01 17:14:56

1046

FPGA加速器支撑ChatGPT类大语言模型创新

作者：Bill Jenkins，Achronix人工智能/机器学习产品营销总监探索FPGA加速语言模型如何通过更快的推理、更低的延迟和更好的语言理解来重塑生成式人工智能简介：大语言模型近年来

2023-09-04 16:55:25

345

腾讯发布混元大语言模型

腾讯发布混元大语言模型腾讯全球数字生态大会上腾讯正式发布了混元大语言模型，参数规模超千亿，预训练语料超2万亿tokens。作为腾讯自研的通用大语言模型，混元大语言模型具有中文创作能力、任务执行

2023-09-07 10:23:54

815

本地化ChatGPT？Firefly推出基于BM1684X的大语言模型本地部署方案

自ChatGPT发布以来，生成式AI在全球引起了新的浪潮，它影响着各行各业，为世界带来智能化的发展。然而，类ChatGPT的大语言模型极度依赖算力巨大的服务器，导致目前大部分应用只能通过集中调用

2023-09-09 08:02:39

952

CLE Diffusion：可控光照增强扩散模型

本文提出了新型的可控光照增强框架，主要采用了条件扩散模型来控制任意区域的任意亮度增强。通过亮度控制模块（Brightness Control Module)将亮度信息信息融入Diffusion网络中，并且设计了和任务适配的条件控制信息和损失函数来增强模型的能力。

2023-09-11 17:20:14

384

虹科分享 | 谷歌Vertex AI平台使用Redis搭建大语言模型

基础模型和高性能数据层这两个基本组件始终是创建高效、可扩展语言模型应用的关键，利用Redis搭建大语言模型，能够实现高效可扩展的语义搜索、检索增强生成、LLM 缓存机制、LLM记忆和持久

2023-09-18 11:26:49

316

怎样使用FHE实现加密大语言模型？

近来，大语言模型 (LLM) 已被证明是提高编程、内容生成、文本分析、网络搜索及远程学习等诸多领域生产力的可靠工具。

2023-10-19 09:13:57

410

揭秘编码器与解码器语言模型

Transformer 架构的问世标志着现代语言大模型时代的开启。自 2018 年以来，各类语言大模型层出不穷。

2023-10-24 11:42:05

337

研讨会回顾：NVIDIA 助力汽车行业大语言模型创新与发展

10 月 28 日，汽车行业大语言模型研讨会正式结束。 NVIDIA 解决方案架构师陈文恺在研讨会中讲解了汽车行业如何开发企业级大语言模型，以加速行业创新和发展。同时，NVIDIA 汽车行业

2023-11-03 19:10:03

356

如何在搜索引擎中应用AI大语言模型，提高企业生产力？

人工智能尤其是大型语言模型的应用，重塑了我们与信息交互的方式，也为企业带来了重大的变革。将基于大模型的检索增强生成（RAG）集成到业务实践中，不仅是一种趋势，更是一种必要。它有助于实现数据驱动型决策

2023-11-06 08:10:02

216

跨语言提示：改进跨语言零样本思维推理

进一步地，提出了Cross-Lingual Self-consistent Prompting (CLSP)，利用不同语言专家的知识和不同语言间更加多样的思考方式，集成了多个推理路径，显著地提高了self-consistency的跨语言性能。CLSP 都能够在CLP的基础上更进一步地有效提高零样本跨语言 CoT 性能。

2023-11-08 16:59:42

261