全新科学问答数据集ScienceQA让深度学习模型推理有了思维链-电子发烧友网

在回答复杂的问题时，人类可以理解不同模态的信息，并形成一个完整的思维链（Chain of Thought, CoT）。深度学习模型是否可以打开「黑箱」，对其推理过程提供一个思维链呢？近日，UCLA 和艾伦人工智能研究院（AI2）提出了首个标注详细解释的多模态科学问答数据集 ScienceQA，用于测试模型的多模态推理能力。在 ScienceQA 任务中，作者提出 GPT-3 (CoT) 模型，即在 GPT-3 模型中引入基于思维链的提示学习，从而使得模型能在生成答案的同时，生成相应的推理解释。GPT-3 (CoT) 在 ScienceQA 上实现了 75.17% 的准确率；并且人类评估表明，其可以生成较高质量的解释。

像人类一样有效地学习并完成复杂的任务是人工智能追求的长远目标之一。人类在决策过程中可以遵循一个完整的思维链（CoT）推理过程，从而对给出的答案做出合理的解释。

然而，已有的机器学习模型大多依赖大量的输入 - 输出样本训练来完成具体的任务。这些黑箱模型往往直接生成最终的答案，而没有揭示具体的推理过程。

科学问答任务（Science Question Answering）可以很好地诊断人工智能模型是否具有多步推理能力和可解释性。为了回答科学问题，一个模型不仅需要理解多模态内容，还需要提取外部知识以得出正确答案。同时，一个可靠的模型还应该给出揭示其推理过程的解释。然而，目前的科学问答数据集大多缺乏对答案的详细解释，或者局限于文字模态。

因此，作者收集了全新的科学问答数据集 ScienceQA，它包含了 21,208 道来自中小学科学课程的问答多选题。一道典型的问题包含多模态的背景（context）、正确的选项、通用的背景知识（lecture）以及具体的解释（explanation）。

ScienceQA 数据集的一个例子。

要回答上图所示的例子，我们首先要回忆关于力的定义：「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... 」，然后形成一个多步的推理过程：「The baby’s hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby’s hand. 」，最终得到正确答案：「This force is a pull. 」。

在 ScienceQA 任务中，模型需要在预测答案的同时输出详细地解释。在本文中，作者利用大规模语言模型生成背景知识和解释，作为一种思维链（CoT）来模仿人类具有的多步推理能力。

实验表明，目前的多模态问答方法在 ScienceQA 任务不能取得很好的表现。相反，通过基于思维链的提示学习，GPT-3 模型能在 ScienceQA 数据集上取得 75.17% 的准确率，同时可以生成质量较高的解释：根据人类评估，其中 65.2% 的解释相关、正确且完整。思维链也可以帮助 UnifiedQA 模型在 ScienceQA 数据集上取得 3.99% 的提升。

1、ScienceQA 数据集

数据集统计

ScienceQA 的主要统计信息如下所示。

ScienceQA 数据集的主要信息

ScienceQA 包含21208个例子，其中有9122个不同的问题（question）。10332 道（48.7%）有视觉背景信息，10220 道（48.2%）有文本背景信息，6532 道（30.8%）有视觉 + 文本的背景信息。绝大部分问题标注有详细的解释：83.9% 的问题有背景知识标注（lecture），而 90.5% 的问题有详细的解答（explanation）。

ScienceQA 数据集中问题和背景分布。

数据集主题分布

不同于已有的数据集，ScienceQA 涵盖自然科学、社会科学和语言学三大学科分支，包含 26 个主题（topic）、127 个分类（category）和 379 个知识技能（skill）。

ScienceQA 的主题分布。

数据集词云分布

如下图的词云分布所示，ScienceQA 中的问题具有丰富的语义多样性。模型需要理解不同的问题表达、场景和背景知识。

ScienceQA 的词云分布。

数据集比较

ScienceQA 是第一个标注详细解释的多模态科学问答数据集。相比于已有的数据集，ScienceQA 的数据规模、题型多样性、主题多样性等多个维度体现了优势。

ScienceQA 数据集与其它科学问答数据集的比较。

2、模型和方法

Baselines

作者在 ScienceQA 数据集了评估不同的基准方法，包括 VQA 模型如 Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和 VisualBERT，大规模语言模型如 UnifiedQA 和 GPT-3，以及 random chance 和 human performance。对于语言模型 UnifiedQA 和 GPT-3，背景图片会被转换成文本形式的注释（caption）。

GPT-3 (CoT)

最近的研究工作表明，在给定合适的提示后，GPT-3 模型可以在不同的下游任务表现出卓越的性能。为此，作者提出 GPT-3 (CoT) 模型，在提示中加入思维链（CoT），使得模型在生成答案的同时，可以生成对应的背景知识和解释。

具体的提示模板如下图所示。其中 Ii 表示训练例子，It 表示测试例子。训练例子包含问题（Question）、选项（Options）、背景（Context）和答案（Answer）元素，其中答案由正确答案、背景知识（Lecture）和解释（Explanation）组成。GPT-3 (CoT) 会根据输入的提示信息，补全测试例子的预测答案、背景知识和解释。

GPT-3 (CoT) 采用的提示模板。

3、实验与分析

实验结果

不同的基准和方法在 ScienceQA 测试集上的准确率结果如下表所示。当前最好的 VQA 模型之一的 VisualBERT 只能达到 61.87% 的准确率。在训练的过程引入 CoT 数据，UnifiedQA_BASE 模型可以实现 74.11% 的准确率。而 GPT-3 (CoT) 在 2 个训练例子的提示下，实现了 75.17% 的准确率，高于其它基准模型。人类在 ScienceQA 数据集上表现优异，可以达到 88.40% 的总体准确率，并且在不同类别的问题上表现稳定。

不同的方法在 ScienceQA 测试集上的结果。

生成解释的评估

作者用自动评估指标如 BLEU-1、BLEU-2、ROUGE-L 和 Sentence Similarity 评估了不同方法生成的解释。由于自动评估指标只能衡量预测结果和标注内容的相似性，因此作者进一步采用了人工评估的方法，来评估生成解释的相关性、正确性和完整性。可以看到，GPT-3 (CoT) 生成的解释中 65.2% 符合了 Gold 标准。

不同评估方法对生成解释的结果。

不同的提示模板

作者比较了不同的提示模板对 GPT-3 (CoT) 准确率的影响。可以看到在 QAM-ALE 的模板下，GPT-3 (CoT) 可以获得最大的平均准确率和最小的方差。另外，GPT-3 (CoT) 在 2 个训练例子的提示下，表现最佳。

不同提示模板的结果比较。

模型上限

为了探索 GPT-3 (CoT) 模型的性能上限，作者把标注的背景知识和解释加入模型的输入（QCMLE*-A）。我们可以看到 GPT-3 (CoT) 可以实现高达 94.13% 的准确率。这也提示了模型提升的一个可能方向：模型可以进行分步推理，即先检索到准确的背景知识和生成准确的解释，然后把这些结果作为输入。这个过程和人类解决复杂问题的过程很相似。

GPT-3 (CoT) 模型的性能上限。

不同的 ALE 位置

作者进一步讨论了GPT-3 (CoT) 在生成预测时，不同的 ALE 位置对结果的影响。在 ScienceQA 上的实验结果表明，如果 GPT-3 (CoT) 先生成背景知识 L 或解释 E，再生成答案 A，其预测准确率会大幅下降。其主要原因是背景知识 L 和解释 E 有较多的词语数量，如果先生成 LE，GPT-3 模型有可能用完最大词数，或者提前停止生成文本，从而不能得到最终的答案 A。

不同的 LE 位置。

成功案例

如下 4 个例子中，GPT-3 (CoT)不但能生成正确的答案，也能给出相关、正确且完整的解释。这说明 GPT-3 (CoT) 在 ScienceQA 数据集上表现出较强的多步推理和解释能力。

GPT-3 (CoT) 生成正确答案和解释的例子。

失败案例 I

在下面的三个例子中，GPT-3 (CoT)虽然生成了正确的答案，但是生成的解释不相关、不正确或者不完整。这说明 GPT-3 (CoT) 对于生成逻辑一致的长序列还面临较大的困难。

GPT-3 (CoT) 能生成正确答案、但是生成的解释不正确的例子。

失败案例 II

在下面的四个例子中，GPT-3 (CoT) 不能生成正确的答案，也不能生成正确的解释。其中的原因有：（1）当前的 image captioning 模型还不能准确地描述示意图、表格等图片的语义信息，如果用图片注释文本表示图片，GPT-3 (CoT) 还不能很好地回答包含图表背景的问题；（2）GPT-3 (CoT) 生成长序列时，容易出现前后不一致（inconsistent）或不连贯（incoherent）的问题；（3）GPT-3 (CoT) 还不能很好地回答需要特定领域知识的问题。

GPT-3 (CoT) 能生成错误答案和解释的例子。

4、结论与展望

作者提出了首个标注详细解释的多模态科学问答数据集 ScienceQA。ScienceQA 包含 21208 道来自中小学科学学科的多选题，涵盖三大科学领域和丰富的话题，大部分问题标注有详细的背景知识和解释。ScienceQA 可以评估模型在多模态理解、多步推理和可解释性方面的能力。作者在 ScienceQA 数据集上评估了不同的基准模型，并提出 GPT-3 (CoT) 模型在生成答案的同时，可以生成相应的背景知识和解释。大量的实验分析和案例分析对模型的改进提出了有利的启发。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据集

数据集

+关注

关注
4

文章
1205

浏览量
24631
深度学习

深度学习

+关注

关注
73

文章
5485

浏览量
120937

原文标题：NeurIPS 2022 | 首个标注详细解释的多模态科学问答数据集，深度学习模型推理有了思维链

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

AI大模型与深度学习的关系

人类的学习过程，实现对复杂数据的学习和识别。AI大模型则是指模型的参数数量巨大，需要庞大的计算资源来进行训练和

发表于 10-23 15:25 •345次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

人工智能在科学研究中的核心技术，包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石，使得AI能够处理和分析复杂的数

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学

发表于 10-14 09:12

【《大语言模型应用指南》阅读体验】+ 基础知识学习

今天来学习大语言模型在自然语言理解方面的原理以及问答回复实现。主要是基于深度学习和自然语言处理技术。大语言

发表于 08-02 11:03

NVIDIA推出全新深度学习框架fVDB

在 SIGGRAPH 上推出的全新深度学习框架可用于打造自动驾驶汽车、气候科学和智慧城市的 AI 就绪型虚拟表示。

发表于 08-01 14:31 •511次阅读

深度学习模型量化方法

深度学习模型量化是一种重要的模型轻量化技术，旨在通过减少网络参数的比特宽度来减小模型大小和加速推理

发表于 07-15 11:01 •449次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是

发表于 07-04 11:49 •881次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习

发表于 07-01 16:13 •1052次阅读

深度学习编译工具链中的核心——图优化

等，需要调整优化网络中使用的算子或算子组合，这就是深度学习编译工具链中的核心——图优化。图优化是指对深度学习

发表于 05-16 14:24 •776次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

大语言模型（LLM）是人工智能领域的尖端技术，凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习，利用神经网络框架来理解和生成自然语言文本。这些模型通过训练海量的文本

发表于 05-04 23:55

【技术科普】主流的深度学习模型有哪些？AI开发工程师必备！

接近于人工智能。它通过学习样本数据的内在规律和表示层次，对文字、图像和声音等数据进行解释。深度学习的目标是

发表于 01-30 15:26 •575次阅读

HarmonyOS：使用MindSpore Lite引擎进行模型推理

场景介绍 MindSpore Lite 是一款 AI 引擎，它提供了面向不同硬件设备 AI 模型推理的功能，目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。本文介绍

发表于 12-14 11:41

多语言的开放式问答数据集构建过程

从评测能力上来看，由于目前的评测数据集主要是利用人类试题及其标准答案进行评测，这种评价方式更偏向对推理能力的评估，存在评估结果和模型真实能力有

发表于 12-11 11:15 •570次阅读

深度学习如何训练出好的模型

算法工程、数据派THU深度学习在近年来得到了广泛的应用，从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是，要训练出一个高效准确的深度

发表于 12-07 12:38 •1047次阅读

大模型数据集：构建、挑战与未来趋势

随着深度学习技术的快速发展，大型预训练模型如GPT-4、BERT等在各个领域取得了显著的成功。这些大模型背后的关键之一是庞大的数据

发表于 12-06 15:28 •1518次阅读