GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布-电子发烧友网

大模型想打开应用前景，要从数据集入手。

胸部 X 光片图像作为临床诊断最常用的手段之一，是计算机与医学结合的一个重要领域。其丰富的视觉和病例报告文本信息促进了 vision-language 在医学领域发展。医学 VQA 是其中的一个重要方向，近年来比较著名的 ImageCLEF-VQA-Med，和 VQA-RAD 数据集包含了许多了胸部 X 光片问答对。

然而，尽管 X 胸片检查报告中包含大量临床信息，现有医学 VQA 任务的问题种类和数量有限，在临床方面的贡献也相对有限。例如，ImageCLEF-VQA-Med 对于胸部 X 光片模态只有两种问题，“这张图片里是否有异常？”，以及 “这张图片里最主要的异常是什么？”，VQA-RAD 的问题种类虽然更丰富，但是却只含有 315 张图片。

在今年的 KDD2023 上，来自德州大学阿灵顿分校，NIH 以及日本理化学研究所，东京大学，国立癌症研究中心的研究人员和放射科医生，联合设计了一个服务临床诊断的大型 VQA 数据集，MIMIC-Diff-VQA。

论文地址：

https://arxiv.org/abs/2307.11986

该数据基于放射科胸片报告，设计了种类更加丰富，内容更加准确的具有逻辑递进的问答对，涵盖 7 种不同的问题类型。

图 1：临床的诊断过程，医生通过比较病程前后图像的差异做出判断

该研究同时提出了一个全新任务，图像对比 VQA （difference VQA）：给定两张图片，回答关于这两张图片差异性的问题。在医学领域，这个任务直接反映了放射科医生的需求。在临床实践中，如图 1 所示，医生经常需要对比回看病人之前的医学影像，评估病灶变化情况并以评价诊疗过程。因此 Difference VQA 提出的问题包括” 这张图片与过去的图片相比有什么变化？”, “疾病的严重程度是否有减轻？” 本次公布的数据集包含 16 万张图片和 70 万问题，这大大刷新了此前的医学 VQA 数据集的大小记录。基于该数据集，本文同时也提供了一个利用 GNN 的 VQA 方法作为 basline。为了解决临床放射科图片中病人姿态差异的问题，该研究使用 Faster R-CNN 提取器官的特征作为图的节点，通过整合隐含关系、空间关系和语义关系三种图网络关系来融合了医学专家的知识。其中空间关系是指各个器官之间的位置关系，语义关系包括解剖学和疾病关系知识图，隐含关系通过全连接关系作为前两者的补充。这些节点间的关系被嵌入到图网络的边中，并通过 ReGAT (Relation-aware graph attention network) 用于对最终图特征进行计算。研究团队希望这个数据集能够促进医学领域视觉问答技术的发展，特别是为如 GPT-4 等 LLM 真正服务于临床提供基准，真正成为支持临床决策和患者教育有用的工具。

一、目前医学 Vision Language 发展现状

医学 Vision Language 领域对现有医疗数据库进行了很多探索来训练深度学习模型。这些数据库包括，MIMIC-CXR, NIH14 和 CheXpert 等。在这些工作通常分为三类：疾病标签的直接分类 (图 2 (b))，医学报告生成 (图 2 (c)) 以及视觉问答任务 (图 2 (d))。疾病标签分类任务首先通过简单的 rule-based 工具，例如 NegBio 和 CheXpert，从报告内容中提取生成预先定义的标签，随后对正样本和负样本进行分类。报告生成领域的方法繁多，诸如对比学习，Attention 模型，Encoder-Decoder 模型等，核心工作都是将图片信息转化为文字来拟合原始的报告。尽管这些任务取得了很多进展，但从具体临床应用角度来看仍存在局限性。

例如在疾病标签分类中 (图 2 (b)) 中，自然语言处理（NLP）规则经常处理不好不确定性和否定项，导致提取的标签出了不准确。同时，简单的标签只提供了单一的异常信息，无法反映临床疾病的多样性。报告生成系统 (图 2 (c)) 通过挖掘图像中的隐含信息避免这个问题，但是它不能结合临床情况回答医生关注的特定问题。例如图 2 (a) 中，原始放射学报告中排除了多种常见或是医生较为关注的疾病，但是人工报告生成器很难猜测放射科医师想要排除哪些疾病。

相比之下，视觉问答（VQA）任务 (图 2 (c)) 更加可行，因为它可以回答医生或病人所关注的特定问题，比如在之前提到的例子中，问题可以设定为 “图像中是否有气胸 “，而答案无疑是” 没有 “。然而，现有的 VQA 数据集 ImageCLEF-VQA-Med 仅仅包含少量通用问题，比如” 图像有什么问题吗？这张图像的主要异常是什么？"，缺乏多样性。这样的问题不仅将 VQA 问题降级为分类问题，而且对临床提供的帮助信息也有限。虽然 VQA-RAD 涵盖 11 种问题类型的问题更加多样，但该数据集仅含有 315 张图像，无法充分发挥出需要大量数据投喂的深度学习模型的性能。为了填补医学 Vision Language 领域的这个空缺，该研究充分结合放射科医生的实践，提出了这项图像对比 VQA（difference VQA）任务，并且基于此任务构建了一个大型的 MIMIC-Diff-VQA 数据集。

图 2：目前医学 Vision Language 各种方法的对比

二、数据集介绍

MIMIC-Diff-VQA 数据集包括 164,654 张图片，和 700,703 问题，含盖 7 种不同的具有临床意义的问题类型，包括异常，存在，方位，位置，级别，类型，和差异。前六种问题和传统 VQA 一致，针对于当前图片提问，只有差异类型问题是针对两张图片的问题。各个问题的比例数据和完整问题列表请分别见图 3 和见表格 1。

图 3：MIMIC-Diff-VQA 问题类型的统计数据

表 1：每种问题类型的问题示例

三、数据集构建

依托于 MIMIC-CXR 提供的海量的胸部 X 光片图像和文本报告，从 377110 张图片和 227835 个放射学报告中，该研究在放射科医生的指导下构建了 MIMIC-Diff-VQA 数据集。

构造 MIMIC-Diff-VQA 数据集的第一步是提取一个 KeyInfo dataset。这个 KeyInfo dataset 包含每个放射学报告中的关键信息，比如报告中出现的肯定的异常对象，及其对应的异常名称、级别、类型、位置，以及否定出现的对象名。提取过程的第一步是根据医生的意见选取出最常用的异常关键词，和其对应的属性关键词（级别、类型、位置），之后再设定相应的规则对这些关键信息进行提取，同时保留其” 肯定 / 否定 “信息。

为了保证数据集构建的质量，该研究主要遵循 “提取 - 检查 - 修改” 的步骤，首先通过正则表达式设定的规则对数据库报告中的关键信息进行提取，然后利用手动和自动的方法对提取结果进行检查，接下来对出现问题的地方进行修改使提取结果更加准确。其中，检查时使用的自动方法包括：使用 ScispaCy 提取报告中的 entity 名称，考虑 Part-of-Speech 在句子中的作用，交叉验证 MIMIC-CXR-JPG 数据集中的 label 提取结果。综合这些自动化方法和手动验证筛选，通过 “提取 - 检查 - 修改” 的步骤，该研究最终完成了 KeyInfo dataset 的构建。

在完成 KeyInfo dataset 的构建之后，该研究便可以在其基础上设计每一个病人的单次或多次访问对应的问题和答案，最终构成了 MIMIC-Diff-VQA 数据集。

四、质量保证

为了进一步保证生成数据集的质量，该研究使用三个人工验证者随机对总计 1700 个考题和答案进行了人工验证，如表 2 所示，最终的平均正确率达到了 97.4%。

表 2：人工验证数据集结果

五、Baseline 模型介绍

同时，在提出的数据集基础上，该研究针对胸部 X 光片和 Difference VQA 任务设计了一个图网络模型。如图 4 所示，考虑拍摄胸部 X 光片的过程中，到同一个病人在不同时间点可能由于身体姿态的不同，拍摄的图像可能伴随着大尺度的位移和改变。

图 4：该研究提出方法的模型结构

因此，gai通过对输入的图片进行解剖学结构定位，并提取对应检测对象的特征作为图网络的节点，以排除病人身体姿态对特征的影响。图网络中的每一个节点是一个解剖学结构位置的特征与问题特征的结合。为了充分挖掘图像中可能包含的病变信息，该研究通过不同的预训练模型为每一个解剖学结构提取一个纯解剖学结构特征和一个疾病特征。

在 “多关系图网络模块” 中，该研究进行了三种不同的图网络关系来计算最终的图网络特征，包括：隐含关系，空间关系，语义关系。对于隐含关系，使用简单的全连接以让模型在潜在关系中发掘有价值的信息。对于空间关系，研究团队考虑了节点之间 11 种不同的空间关系作为边，并用 ReGAT (Relation-aware Graph Attention Network) 进行计算。对于语义关系，该研究引入了两种知识图谱，即，共现知识图谱（Co-occurrence Knowledge graph），和解剖学知识图谱（Anatomical Knowledge graph）。前者考虑不同疾病之间共同出现的概率关系，后者考虑疾病与解剖学之间的关系。

由于该研究在第一步提取了对应的解剖学结构特征和疾病特征，于是便可以将他们嵌入到这两种知识图谱当中。与空间关系的图网络计算类似，该研究考虑了三种语义关系：共现关系，解剖学关系，无关系，来作为图网络的边，每一种关系用一个数字标签来进行表征，并使用 ReGAT 进行运算。

最终，三种关系图网络计算后的节点特征进行全局平均池化，得到最终图像对应的图特征。将两张图片的图特征相减便可得到差异图特征。对这些特征通过注意力机制得到对应的特征向量，然后将两张图片的特征向量和相减后得到的差异特征向量输入最终的 LSTM 答案生成器，便可得到最终的答案。

该研究将模型与领域内最先进的方法做对比，包括 MMQ (Multiple Meta-model Quantifying), MCCFormers ( Multi-Change Captioning transformers), 和 IDCPCL (Image Difference Captioning with Pre-training and Contrastive Learning)。其中 MMQ 是传统医学 VQA 模型，MCCFormers 和 IDCPCL 是差异描述（Difference Captioning）模型。由于 MMQ 无法处理多张图像，该研究仅在除了 Difference 类问题以外的其他六种问题上将它与所提模型作对比。对于 MCCFormers 和 IDCPCL，由于他们不是 VQA 模型并且必须同时输入两张图片，因此该研究仅在 Difference 类问题上与他们进行对比。对比结果如表 3 和表 4 所示，该模型在 Difference VQA 上显示出了更优越的性能。

表 3：该研究提出的方法与 MMQ 在 non-difference 类问题上的准确率对比

表 4：几种方法与差异描述方法在 Difference 类问题上的对比

六、总结与讨论

该研究提出了一个医学 Difference VQA 问题，并收集了一个大规模的 MIMIC-Diff-VQA 数据集，以此希望能对推动学界相关技术的发展，同时为医学界提供有力的支持，包括提供临床决策辅助和患者教育工具等方面。同时，该研究设计了一个专家知识感知的多关系图网络模型来解决这个问题，为学界提供了一个基准模型作为参照。与当前在相关领域最先进的方法的比较表明，该研究所提方法取得了显著改进。

然而，该研究的数据集和方法仍存在一定的局限性，比如数据集没有考虑对于特殊情况下同一个病灶出现在多于两处的情况，以及同义词的合并也有进一步的提升空间。

此外，所提模型也会产生一些错误，包括：

对同一异常的不同呈现方面的混淆，例如肺不张和肺浸润被互相误认。

相同类型异常的不同名称，例如心影增大被错误分类为心脏肥大。

用于提取图像特征的预训练模型（Faster-RCNN）可能提供不准确的特征，并导致错误的预测，例如错误地将肺浸润识别为胸膜积液。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3393

浏览量
49367
数据集

数据集

+关注

关注
4

文章
1212

浏览量
24908
大模型

大模型

+关注

关注
2

文章
2711

浏览量
3318

原文标题：KDD2023 | GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

PROTEL应用常见问题及问答集

PROTEL应用常见问题及问答集

发表于 08-04 16:31

【高手问答】第9期——张工带你玩转STM32问答

张工带你玩转STM32问答高手问答第9期小编导读：一周一期的高手问答，又在周一与大家相见了。本期（8.25~8.31）的主题是与STM32相关的

发表于 08-25 10:20

电源基本知识问答汇总

电源基本知识问答20条，你答对了几条？

发表于 01-29 07:18

PCB设计经典问答集

PCB设计经典问答集

发表于 04-03 10:47 •0次下载

PROTEL应用常见问题及问答集

PROTEL应用常见问题及问答集，好资料，下来看看。

发表于 01-12 12:51 •0次下载

谷歌重磅发布自然问题数据集

谷歌重磅发布自然问题数据集(Natural Questions)，包含30万个自然发生的问题和人工注释的答案，16000个示例，并发起基于此数据

发表于 01-28 15:27 •3671次阅读

还在愁到哪里找到需要的机器学习数据集吗？

应阅读文章的一段文本。SQuAD 包含 500 多篇文章的 10 万对以上的问答对，因此规模明显大于之前的阅读理解数据集。 SQuAD2.0 将 SQuAD1.1 中的 10

发表于 03-29 11:45 •2464次阅读

电容电路应用35个问答，你都能答对吗资料下载

电子发烧友网为你提供电容电路应用35个问答，你都能答对吗资料下载的电子资料下载，更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料，希望可以帮助到广大的电子工程师们。

发表于 03-28 08:45 •1次下载

无监督的多跳问答的可能性研究

标注多跳问答（Multi-hop QA）数据集费时费力!本文首次研究了无监督的多跳问答的可能性，提出了MQG-QA，一种无监督的框架，从同构和异构数

发表于 03-31 17:29 •2065次阅读

EMI/EMC设计经典70问答

关于EMI/EMC设计的经典70问答。

发表于 06-07 09:40 •25次下载

全新科学问答数据集ScienceQA让深度学习模型推理有了思维链

和艾伦人工智能研究院（AI2）提出了首个标注详细解释的多模态科学问答数据集 ScienceQA，用于测试模型的多模态推理能力。在 ScienceQA 任务中，作者提出 GPT-3 (

发表于 11-01 16:30 •1459次阅读

问答对话文本数据，构建智能问答对话系统的基础

在人工智能领域的发展中，问答对话系统显得尤为重要。一方面，它为我们提供了常用的人机交互方式；另一方面，它也对互联网公司和其他机构提供了一种新的商业模式。不过，对话系统的核心技术之一就是问答对话文本数据

发表于 06-18 23:02 •679次阅读

问答对话文本数据：解锁智能问答的未来

在日常生活中，我们经常面临各种问题和需求，而智能问答系统作为一种人机交互工具，为我们提供了便捷的问题解答和信息获取方式。而问答对话文本数据作为推动智能问答系统发展的关键资源，扮演着重要

发表于 07-13 14:19 •605次阅读

自然语言理解问答对话文本数据，赋予计算机智能交流的能力

自然语言理解（Natural Language Understanding，简称NLU）问答对话文本数据是现代人工智能领域的一项重要资源。这些数据集涵盖了用户与计算机之间的自然语言交互

发表于 08-07 18:11 •762次阅读

NVIDIA 知乎精彩问答甄选 | 分享 NVIDIA 助力医学研究的相关精彩问答

NVIDIA 带来知乎精彩问答甄选系列，将为您精选知乎上有关 NVIDIA 产品的精彩问答。本期为问答甄选第十七期 —— 分享 NVIDIA 助力医学研究的相关精彩

发表于 11-24 19:25 •644次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

GPT时代医学AI新赛道：16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

评论

PROTEL应用常见问题及问答集

【高手问答】第9期——张工带你玩转STM32问答

电源基本知识问答汇总

PCB设计经典问答集

PROTEL应用常见问题及问答集

谷歌重磅发布自然问题数据集

还在愁到哪里找到需要的机器学习数据集吗？

电容电路应用35个问答，你都能答对吗资料下载

无监督的多跳问答的可能性研究

EMI/EMC设计经典70问答

全新科学问答数据集ScienceQA让深度学习模型推理有了思维链

问答对话文本数据，构建智能问答对话系统的基础

问答对话文本数据：解锁智能问答的未来

自然语言理解问答对话文本数据，赋予计算机智能交流的能力

NVIDIA 知乎精彩问答甄选 | 分享 NVIDIA 助力医学研究的相关精彩问答