在检索任务中训练数据在推理时也大有用处-电子发烧友网

从大规模数据中检索通常比较耗时，仅从训练数据中也能有巨大收益。具体做法是检索与输入文本最相似的训练样例，拼接后作为输入喂入模型，然后生成结果。结果在摘要、翻译、语言模型和QA上都取得了不错的效果。

论文：Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code：microsoft/REINA[2]

一句话概述：在检索任务中训练数据在推理时也大有用处。

文章上来就给我们呈现了整体的结构：

有点类似 Prompt 学习，但本文主要关注有监督学习的设置。结果不仅效果很好，而且很容易扩展（只要增加有标注训练数据就行），计算代价也小。我觉得本文相对最有意思的一个发现是文中所写：即便有成吨的参数，一个模型也不能记住训练数据中的所有模式。所以，重新捕获相关的训练数据作为一个手拉手提示器，就可以提供明确的信息来提高模型（推理）的性能。

整体架构如下图所示（REINA）：

一张图其实已经很清楚地表达出意思了：对不同的任务构造不同的输入，但都会将训练数据拼接上后再喂入模型，得到最后的答案，这里的答案是通过语言模型生成的。检索算法使用 BM25。

形式化模型为：

其中，M 表示生成模型，x 是输入，大括号里的就是 top K 个检索到的最相似的训练数据。

对 QA 任务，将输入文本和每个选项拼接后作为 query，然后获取相关的训练数据。如果需要加入外部知识，则调整为：

其中，C 表示选项。拼接实体字典定义和关系 R，用来为一个 Q 构造知识 K。

Ex 表示与 Q 相关的实体，Ec 表示与 A 相关的实体。本文的相关指：在句子中出现。

用人话简单描述一下就是：给定 Q，在训练数据中找到相似的 QA 对，对每个 QA 对，找到其中所涉及的实体和关系，然后将实体的定义和关系也拼接进去，最后组成一长串文本作为模型输入。

相似检索使用 Lucene Index，模型训练使用 Transformers。实验结果（以文本摘要为例）如下：

结果显示，REINA 可以显著提升（几乎所有数据集）使用不同预训练模型初始化的基线。在 case 分析时，作者发现 REINA 的数据和真实标签之间有很强的相关性。

总之，本文的思路非常简单，但效果却不错，在工业上可以一试，尤其是生成式文本摘要和 QA 任务。不过，感觉这好像也算是一种 prompt 吧，使用训练数据来「拉近」输入和真实标签之间的距离。

本文参考资料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7081

浏览量
89180
检索

检索

+关注

关注
0

文章
27

浏览量
13170

原文标题：ACL2022 | 微软：永远不要低估你的训练数据！

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

布外任务展示出多样化和复杂的推广能力。知识载体知识嵌入在训练期间学习的模型参数中。知识载体是记忆和隐藏状态，专注于上下文学习和适应。可扩展性通过扩展参数和预

发表于 12-24 15:03

【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

活动中挖掘互联网数据，但 EAI 数据必须在各种且通常不可预测的环境中捕获无数物理交互。例如，虽然易于访问的聊天数据允许使用 570 GB

发表于 12-24 00:33

FP8数据格式在大型模型训练中的应用

本文主要介绍了 FP8 数据格式在大型模型训练中的应用、挑战及最佳实践，展示了 FP8 在提升训练

发表于 11-19 14:54 •372次阅读

FPGA和ASIC在大模型推理加速中的应用

随着现在AI的快速发展，使用FPGA和ASIC进行推理加速的研究也越来越多，从目前的市场来说，有些公司已经有了专门做推理的ASIC，像Groq的LPU，专门针对大语言模型的推理做了优化

发表于 10-29 14:12 •534次阅读

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发任务

发表于 10-27 10:03 •236次阅读

GPU服务器在AI训练中的优势具体体现在哪些方面？

GPU服务器在AI训练中的优势主要体现在以下几个方面： 1、并行处理能力：GPU服务器拥有大量的并行处理核心，这使得它们能够同时处理成千上万个计算任务，极大地加速了AI模型的

发表于 09-11 13:24 •449次阅读

软件系统的数据检索设计

软件系统的数据检索设计随着业务量加大，数据检索量也会日益增多，为了减轻数据库压力，本系统采用ElasticSearch来实现数据检索功能。

发表于 08-22 14:08 •287次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

与匹配模型可能结合高效检索技术来快速定位与问题相关的信息源。通过匹配算法和索引技术，模型可以从海量数据中筛选出最相关的文本片段作为候选答案。 3. 推理与生成

发表于 08-02 11:03

FPGA在人工智能中的应用有哪些？

FPGA（现场可编程门阵列）在人工智能领域的应用非常广泛，主要体现在以下几个方面：一、深度学习加速训练和推理过程加速：FPGA可以用来加速深度学习的训练和

发表于 07-29 17:05

不同类型神经网络在回归任务中的应用

神经网络是一种强大的机器学习模型，可以用于各种任务，包括回归。在本文中，我们将讨论不同类型的神经网络，以及它们在回归任务中的应用。基本的神

发表于 07-11 10:27 •1361次阅读

大数据在军事训练领域的应用有哪些

智慧华盛恒辉大数据在军事训练领域的应用广泛且深入，以下是具体的应用点及其归纳：智慧华盛恒辉个性化训练计划：通过收集和分析每个士兵的训练

发表于 06-23 10:21 •663次阅读

【大语言模型：原理与工程实践】大语言模型的应用

类任务上表现出色，甚至在零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务，类似于人类的系统2，如数字

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练数据的需求也相

发表于 05-07 17:10

【大语言模型：原理与工程实践】揭开大语言模型的面纱

用于文本生成，根据提示或上下文生成连贯、富有创造性的文本，为故事创作等提供无限可能。大语言模型也面临挑战。一方面，其计算资源需求巨大，训练和推理耗时；另一方面，模型高度依赖数据，需要大

发表于 05-04 23:55

AI推理，和训练有什么不同？

如果要用一句话概括AI的训练和推理的不同之处，我觉得用“台上一分钟，台下十年功”最为贴切。话说小明已经和心目中的女神交往数年，在邀约女神出门这件事上积累了大量的经验数据，但却依然捉摸不

发表于 04-29 08:06 •210次阅读