0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在检索任务中训练数据在推理时也大有用处

深度学习自然语言处理 来源:NewBeeNLP 作者:h1654155273.8628 2022-06-15 10:57 次阅读

从大规模数据中检索通常比较耗时,仅从训练数据中也能有巨大收益。具体做法是检索与输入文本最相似的训练样例,拼接后作为输入喂入模型,然后生成结果。结果在摘要、翻译、语言模型和QA上都取得了不错的效果。

论文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code:microsoft/REINA[2]

一句话概述:在检索任务中训练数据在推理时也大有用处。

文章上来就给我们呈现了整体的结构:

b2e83ada-ebed-11ec-ba43-dac502259ad0.jpg

有点类似 Prompt 学习,但本文主要关注有监督学习的设置。结果不仅效果很好,而且很容易扩展(只要增加有标注训练数据就行),计算代价也小。我觉得本文相对最有意思的一个发现是文中所写:即便有成吨的参数,一个模型也不能记住训练数据中的所有模式。所以,重新捕获相关的训练数据作为一个手拉手提示器,就可以提供明确的信息来提高模型(推理)的性能。

整体架构如下图所示(REINA):

b316d20a-ebed-11ec-ba43-dac502259ad0.jpg

一张图其实已经很清楚地表达出意思了:对不同的任务构造不同的输入,但都会将训练数据拼接上后再喂入模型,得到最后的答案,这里的答案是通过语言模型生成的。检索算法使用 BM25。

形式化模型为:

其中,M 表示生成模型,x 是输入,大括号里的就是 top K 个检索到的最相似的训练数据。

对 QA 任务,将输入文本和每个选项拼接后作为 query,然后获取相关的训练数据。如果需要加入外部知识,则调整为:

其中,C 表示选项。拼接实体字典定义和关系 R,用来为一个 Q 构造知识 K。

Ex 表示与 Q 相关的实体,Ec 表示与 A 相关的实体。本文的相关指:在句子中出现。

用人话简单描述一下就是:给定 Q,在训练数据中找到相似的 QA 对,对每个 QA 对,找到其中所涉及的实体和关系,然后将实体的定义和关系也拼接进去,最后组成一长串文本作为模型输入。

相似检索使用 Lucene Index,模型训练使用 Transformers。实验结果(以文本摘要为例)如下:

b3394fe2-ebed-11ec-ba43-dac502259ad0.jpg

结果显示,REINA 可以显著提升(几乎所有数据集)使用不同预训练模型初始化的基线。在 case 分析时,作者发现 REINA 的数据和真实标签之间有很强的相关性。

总之,本文的思路非常简单,但效果却不错,在工业上可以一试,尤其是生成式文本摘要和 QA 任务。不过,感觉这好像也算是一种 prompt 吧,使用训练数据来「拉近」输入和真实标签之间的距离。

本文参考资料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7081

    浏览量

    89180
  • 检索
    +关注

    关注

    0

    文章

    27

    浏览量

    13170

原文标题:ACL2022 | 微软:永远不要低估你的训练数据!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    布外任务展示出多样化和复杂的推广能力。 知识载体 知识嵌入训练期间学习的模型参数。 知识载体是记忆和隐藏状态,专注于上下文学习和适应。 可扩展性 通过扩展参数和预
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+数据具身人工智能的价值

    活动挖掘互联网数据,但 EAI 数据必须在各种且通常不可预测的环境捕获无数物理交互。 例如,虽然易于访问的聊天数据允许使用 570 GB
    发表于 12-24 00:33

    FP8数据格式大型模型训练的应用

    本文主要介绍了 FP8 数据格式大型模型训练的应用、挑战及最佳实践,展示了 FP8 提升训练
    的头像 发表于 11-19 14:54 372次阅读
    FP8<b class='flag-5'>数据</b>格式<b class='flag-5'>在</b>大型模型<b class='flag-5'>训练</b><b class='flag-5'>中</b>的应用

    FPGA和ASIC大模型推理加速的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的推理做了优化
    的头像 发表于 10-29 14:12 534次阅读
    FPGA和ASIC<b class='flag-5'>在</b>大模型<b class='flag-5'>推理</b>加速<b class='flag-5'>中</b>的应用

    NVIDIA助力丽蟾科技打造AI训练推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练推理加速解决方案。无论是复杂的 AI 开发任务
    的头像 发表于 10-27 10:03 236次阅读
    NVIDIA助力丽蟾科技打造AI<b class='flag-5'>训练</b>与<b class='flag-5'>推理</b>加速解决方案

    GPU服务器AI训练的优势具体体现在哪些方面?

    GPU服务器AI训练的优势主要体现在以下几个方面: 1、并行处理能力:GPU服务器拥有大量的并行处理核心,这使得它们能够同时处理成千上万个计算任务,极大地加速了AI模型的
    的头像 发表于 09-11 13:24 449次阅读

    软件系统的数据检索设计

    软件系统的数据检索设计 随着业务量加大,数据检索会日益增多,为了减轻数据库压力,本系统采用ElasticSearch来实现数据检索功能。
    的头像 发表于 08-22 14:08 287次阅读
    软件系统的<b class='flag-5'>数据检索</b>设计

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    与匹配 模型可能结合高效检索技术来快速定位与问题相关的信息源。通过匹配算法和索引技术,模型可以从海量数据筛选出最相关的文本片段作为候选答案。 3. 推理与生成
    发表于 08-02 11:03

    FPGA人工智能的应用有哪些?

    FPGA(现场可编程门阵列)人工智能领域的应用非常广泛,主要体现在以下几个方面: 一、深度学习加速 训练推理过程加速:FPGA可以用来加速深度学习的训练
    发表于 07-29 17:05

    不同类型神经网络回归任务的应用

    神经网络是一种强大的机器学习模型,可以用于各种任务,包括回归。本文中,我们将讨论不同类型的神经网络,以及它们回归任务的应用。 基本的神
    的头像 发表于 07-11 10:27 1361次阅读

    数据军事训练领域的应用有哪些

    智慧华盛恒辉大数据军事训练领域的应用广泛且深入,以下是具体的应用点及其归纳: 智慧华盛恒辉个性化训练计划: 通过收集和分析每个士兵的训练
    的头像 发表于 06-23 10:21 663次阅读

    【大语言模型:原理与工程实践】大语言模型的应用

    任务上表现出色,甚至零样本条件下能取得良好效果。另一类则需要逐步推理才能完成的任务,类似于人类的系统2,如数字
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的预训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本,为故事创作等提供无限可能。大语言模型面临挑战。一方面,其计算资源需求巨大,训练推理耗时;另一方面,模型高度依赖数据,需要大
    发表于 05-04 23:55

    AI推理,和训练有什么不同?

    如果要用一句话概括AI的训练推理的不同之处,我觉得用“台上一分钟,台下十年功”最为贴切。话说小明已经和心目中的女神交往数年,邀约女神出门这件事上积累了大量的经验数据,但却依然捉摸不
    的头像 发表于 04-29 08:06 210次阅读
    AI<b class='flag-5'>推理</b>,和<b class='flag-5'>训练</b>有什么不同?