识别文本蕴涵任务的小样本学习-电子发烧友网

识别文本蕴涵的任务，也称自然语言推理，是指确定一段文本（前提）是否可被另一段文本（假设）所暗示或否认（或两者都不能）。虽然这一问题通常被视为机器学习 (ML) 系统推理能力的重要测试，并且在纯文本输入方面已经有过深入研究，但对于此类模型在结构化数据，如网站、表格、数据库等方面的应用，相关投入却要少得多。然而，每当需要将表格的内容准确地归纳并呈现给用户时，识别文本蕴涵就显得尤为重要，这对于高保真的问答系统和虚拟助手来说更是必不可少。

在发表于 Findings of EMNLP 2020 的“通过中间预训练以了解表格(Understanding tables with intermediate pre-training)”中，我们介绍了为表格解析定制的首批预训练任务，可使模型从更少的数据中更好、更快地学习。

我们在较早的 TAPAS模型基础上进行了改进，该模型是 BERT双向 Transformer 模型的扩展，采用特殊嵌入向量在表格中寻找答案。新的预训练目标应用于 TAPAS 后即在涉及表格的多个数据集上达成突破性进展。

例如，在 TabFact 上，它将模型和人类之间的表现差距缩小了约 50%。我们还系统地对选择相关输入的方法进行了基准测试以获得更高效率，实现了速度和内存的 4 倍提升，同时保留了 92% 的结果。适用于不同任务和规模的所有模型均已发布在 GitHub repo 中，您可以在 Colab Notebook 中试用它们。

文本蕴涵

当应用于表格数据时，相比于纯文本，文本蕴涵任务更具挑战性。以一份 Wikipedia 的表格为例，其中有一些句子来自其关联的表格内容。评估表格内容是包含还是与句子相矛盾，这可能需要查看多个列和行，还可能需要执行简单的数字计算，例如求平均值、求和、差分等。

表格，以及来自 TabFact 的一些语句：表格内容可用于支持或反驳语句

按照 TAPAS 使用的方法，我们将语句和表格的内容一起编码，通过 Transformer 模型传递，得到一个单一数字，表示语句被表格蕴涵或反驳的概率。

TAPAS 模型架构使用 BERT 模型对语句和展平的表格进行编码，逐行读取。特殊嵌入向量用于编码表格结构。第一个令牌的向量输出用于预测蕴涵的概率

由于训练样本中唯一的信息是一个二元值（即“正确”或“不正确”），因此训练模型来理解语句是否被蕴涵是具有挑战性的。这也凸显了在深度学习中泛化的困难，特别是当提供的训练信号较为稀缺的时候。发现孤立的蕴涵或反驳样本时，模型可以轻松地在数据中提取虚假模式进行预测，例如在“Greg Norman and Billy Mayfair tie in rank”中提取“tie”一词，而不是比较排名，因此无法超越原始训练数据成功应用模型。

预训练任务

预训练任务可通过提供大量现成的未标记数据来“预热”模型。然而，预训练通常主要包括纯文本而非表格数据。事实上，TAPAS 最初的预训练使用的是简单的掩码语言建模目标，而这一目标并非为表格数据应用而设计。为了提高模型在表格数据上的性能，我们引入了两个新的预训练二元分类任务，称其为反事实和合成任务，可以用作预训练的第二阶段（通常称为中间预训练）。

在反事实任务中，我们从 Wikipedia 提取句子，该句子提到同时出现在给定表格中的实体（人、地点或事物）。然后，在 50% 的时间里，我们将实体替换为另一个替代实体来修改语句。为了确保语句的真实性，我们在表格中同一列的实体内选择一个替换。模型以识别语句是否被修改为目标接受训练。这项预训练任务包括数百万个这样的样本，虽然它们的推理并不复杂，但通常还是会听起来很自然。

对于合成任务，我们采取类似于语义解析的方法，使用一组简单的语法规则生成语句，要求模型理解基本的数学运算，比如求和与求平均值（例如“the sum of earnings”），或者理解如何使用条件过滤表格中的元素（例如“the country is Australia”）。虽然这些语句是人为的，但它们仍然有助于提高模型的数字和逻辑推理能力。

两个新的预训练任务的示例实例。反事实示例将输入表格随附的句子中提及的实体换为一个可信的替代实体。合成语句使用语法规则创建新句子，这些句子需要以复杂的方式组合表格的信息

结果

我们通过与基线 TAPAS 模型和先前两个文本蕴涵领域的成功模型 LogicalFactChecker (LFC) 和 Structure Aware Transformer (SAT) 进行比较，评估了反事实和合成预训练目标在 TabFact 数据集上的成功。基线 TAPAS 模型相对于 LFC 和 SAT 表现出更好的性能，但预训练的模型 (TAPAS+CS) 的性能明显更好，达到新的技术水平。

我们还将 TAPAS+CS 应用于 SQA 数据集上的问答任务，这要求模型在对话框环境下从表格内容中找到答案。加入 CS 目标后，最佳性能相比于之前提高了 4 个百分点以上，这表明这种方法还可以将性能泛化到文本蕴涵之外。

TabFact（左）和 SQA（右）的结果。使用合成和反事实数据集，我们在这两项任务中都以较大优势取得了新的最先进结果

数据和计算效率

反事实和合成预训练任务的另一个方面是，由于模型已经针对二元分类进行了调整，因此可以应用而无需对 TabFact 进行任何微调。我们探索了只对数据的一个子集（甚至没有数据）进行训练时，每个模型会发生什么。不查看单个样本时，TAPAS+CS 模型与强基线 Table-Bert 不相上下，只包含 10% 的数据时，结果与先前的最先进水平相当。

TabFact 上的开发准确率相对于所用训练数据的分数

试图使用此类大型模型对表格进行操作时，一个普遍的担忧是，高计算要求会使其难以解析非常大的表格。为了解决这个问题，我们研究了是否可以启发式地选择要通过模型的输入子集，以优化其计算效率。

我们对各种过滤输入的方法进行了系统性研究，发现选择整列和主题语句之间的单词重叠的简单方法可获得最佳结果。通过动态选择要包括的输入令牌，我们可以使用更少的资源或以相同的成本处理更大的输入。这样做的挑战是如何保留重要信息和准确率。

例如，上述模型全部使用 512 个令牌的序列，接近于 Transformer 模型的正常极限（尽管最近的效率方法，如 Reformer或 Performer被证明可以有效地缩放输入大小）。我们在这里提出的列选择方法可以让训练速度更快，同时还能在 TabFact 上实现高准确率。对于 256 个输入令牌，我们的准确率下降非常小，但现在可以对模型进行预训练、微调，并使预测速度提高 2 倍。在 128 个令牌的情况下，模型仍然优于之前的最先进模型，速度提升更为显著，获得 4 倍全面提升。

通过我们的列选择方法缩短输入，使用不同序列长度在 TabFact 上得出的准确率

使用我们提出的列选择方法和新颖的预训练任务，可以创建出以更少数据和更少计算能力得出更好结果的表格解析模型。

我们已经在 GitHub repo 中提供了新的模型和预训练技术，您可以在 Colab 中亲自尝试。为了使这种方法更易于使用，我们还共享了不同大小的模型，最小到“Tiny”。我们希望这些结果有助于在更广泛的研究社区中推动表格推理的发展。

这项工作由苏黎世语言团队的 Julian Martin Eisenschlos、Syrine Krichene 和 Thomas Müller 完成。

原文标题：用于表格数据推理的小样本学习

文章出处：【微信公众号：TensorFlow】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7004

浏览量
88944
机器学习

机器学习

+关注

关注
66

文章
8408

浏览量
132568
自然语言

自然语言

+关注

关注
1

文章
288

浏览量
13347

原文标题：用于表格数据推理的小样本学习

文章出处：【微信号：tensorflowers，微信公众号：Tensorflowers】欢迎添加关注！文章转载请注明出处。

语音识别技术的应用与发展

语音识别技术的发展可以追溯到20世纪50年代，但直到近年来，随着计算能力的提升和机器学习技术的进步，这项技术才真正成熟并广泛应用于各个领域。语音识别技术的应用不仅提高了工作效率，也极大地改善了用户

发表于 11-26 09:20 •397次阅读

【飞凌嵌入式OK3576-C开发板体验】RKNPU图像识别测试

，包括但不限于以下几个方面：计算机视觉：用于图像识别、目标检测、人脸识别等任务，在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。自然语言处理：加速文本分类、情感分析、机

发表于 10-10 09:27

深度识别人脸识别在任务中为什么有很强大的建模能力

深度学习人脸识别技术是人工智能领域中的一个重要分支，它利用深度学习算法来识别和验证人脸。这项技术在近年来取得了显著的进展，其强大的建模能力主要得益于以下几个方面：数据驱动的

发表于 09-10 14:53 •372次阅读

NVIDIA文本嵌入模型NV-Embed的精度基准

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试（MTEB）涵盖 56 项嵌入任务。

发表于 08-23 16:54 •1980次阅读

NVIDIA<b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基准

【《大语言模型应用指南》阅读体验】+ 基础知识学习

的信息，提供更全面的上下文理解。这使得模型能够更准确地理解复杂问题中的多个层面和隐含意义。 2. 语义分析模型通过训练学习到语言的语义特征，能够识别文本中的命名实体、句法结构和语义关系等信息。这些

发表于 08-02 11:03

如何学习智能家居？8：Text文本实体使用方法

没来得及给大家写使用教程！不过在写教程之前，有必要给大家看看上周的成果： Text 实体介绍 Text 实体，也就是文本实体，它支持在 HomeAssistant 输入文字之后，通过 MQTT 下发

发表于 07-15 14:06 •1572次阅读

如何<b class='flag-5'>学习</b>智能家居？8：Text<b class='flag-5'>文本</b>实体使用方法

基于Python的深度学习人脸识别方法

基于Python的深度学习人脸识别方法是一个涉及多个技术领域的复杂话题，包括计算机视觉、深度学习、以及图像处理等。在这里，我将概述一个基本的流程，包括数据准备、模型选择、训练过程、以及测试与评估，并附上简单的代码示例。

发表于 07-14 11:52 •1253次阅读

卷积神经网络在文本分类领域的应用

在自然语言处理（NLP）领域，文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展，卷积神经网络（Convolutional Neural Network，简称CNN）在图像识别领域取得了

发表于 07-01 16:25 •703次阅读

基于深度学习的鸟类声音识别系统

具体的软硬件实现点击http://mcu-ai.com/MCU-AI技术网页_MCU-AI 鸟叫声识别在鸟类保护中具有重要意义。通过适当的声音分类，研究可以自动预测该地区的生活质量。如今，深度学习

发表于 05-30 20:30

基于深度神经网络的婴儿哭声识别算法

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI 婴儿哭闹识别是一项具有挑战性的任务，因为很难确定能够让研究人员清楚区分不同类型哭闹的语音特征。然而

发表于 05-20 19:20

OpenVINO™协同Semantic Kernel：优化大模型应用性能新路径

作为主要面向 RAG 任务方向的框架，Semantic Kernel 可以简化大模型应用开发过程，而在 RAG 任务中最常用的深度学习模型就是 Embedding 和 Text completion，分别实现

发表于 03-08 10:41 •700次阅读

在全志V853平台上成功部署深度学习步态识别算法

伪装等优点。本文所设计的步态识别系统，搭建在全志V853开发板上，充分利用板载外设、CPU与NPU，实现了嵌入式系统上的实时步态识别系统。具体来说，系统所采用的深度学习算法在PC端进行训练，得到

发表于 03-04 10:15

科大讯飞发布星火认知大模型V3.5

科大讯飞近日发布了星火认知大模型V3.5版本，该版本基于全国产化算力底座“飞星一号”平台进行训练。与讯飞星火V3.0相比，V3.5在逻辑推理、文本生成、数学答题及小样本学习能力等方面均实现了显著提升。

发表于 01-31 14:40 •891次阅读

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！

接近于人工智能。它通过学习样本数据的内在规律和表示层次，对文字、图像和声音等数据进行解释。深度学习的目标是让机器像人一样具有分析学习能力，能够识别

发表于 01-30 15:26 •621次阅读

如何使用Python进行图像识别的自动学习自动训练？

如何使用Python进行图像识别的自动学习自动训练？使用Python进行图像识别的自动学习和自动训练需要掌握一些重要的概念和技术。在本文中，我们将介绍如何使用Python中的一些常用

发表于 01-12 16:06 •578次阅读

搜索历史

识别文本蕴涵任务的小样本学习

评论