0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

深度学习自然语言处理 来源:机器之心 2023-08-09 15:36 次阅读

大模型想打开应用前景,要从数据集入手。

胸部 X 光片图像作为临床诊断最常用的手段之一,是计算机与医学结合的一个重要领域。其丰富的视觉和病例报告文本信息促进了 vision-language 在医学领域发展。医学 VQA 是其中的一个重要方向,近年来比较著名的 ImageCLEF-VQA-Med,和 VQA-RAD 数据集包含了许多了胸部 X 光片问答对。

然而,尽管 X 胸片检查报告中包含大量临床信息,现有医学 VQA 任务的问题种类和数量有限,在临床方面的贡献也相对有限。例如,ImageCLEF-VQA-Med 对于胸部 X 光片模态只有两种问题,“这张图片里是否有异常?”,以及 “这张图片里最主要的异常是什么?”,VQA-RAD 的问题种类虽然更丰富,但是却只含有 315 张图片。

在今年的 KDD2023 上,来自德州大学阿灵顿分校,NIH 以及日本理化学研究所,东京大学,国立癌症研究中心的研究人员和放射科医生,联合设计了一个服务临床诊断的大型 VQA 数据集,MIMIC-Diff-VQA。

ef026ad0-3661-11ee-9e74-dac502259ad0.png

论文地址:

https://arxiv.org/abs/2307.11986

该数据基于放射科胸片报告,设计了种类更加丰富,内容更加准确的具有逻辑递进的问答对,涵盖 7 种不同的问题类型。

ef1d74c4-3661-11ee-9e74-dac502259ad0.png

图 1:临床的诊断过程,医生通过比较病程前后图像的差异做出判断

该研究同时提出了一个全新任务,图像对比 VQA (difference VQA):给定两张图片,回答关于这两张图片差异性的问题。在医学领域,这个任务直接反映了放射科医生的需求。在临床实践中,如图 1 所示,医生经常需要对比回看病人之前的医学影像,评估病灶变化情况并以评价诊疗过程。因此 Difference VQA 提出的问题包括” 这张图片与过去的图片相比有什么变化?”, “疾病的严重程度是否有减轻?” 本次公布的数据集包含 16 万张图片和 70 万问题,这大大刷新了此前的医学 VQA 数据集的大小记录。基于该数据集,本文同时也提供了一个利用 GNN 的 VQA 方法作为 basline。为了解决临床放射科图片中病人姿态差异的问题,该研究使用 Faster R-CNN 提取器官的特征作为图的节点,通过整合隐含关系、空间关系和语义关系三种图网络关系来融合了医学专家的知识。其中空间关系是指各个器官之间的位置关系,语义关系包括解剖学和疾病关系知识图,隐含关系通过全连接关系作为前两者的补充。这些节点间的关系被嵌入到图网络的边中,并通过 ReGAT (Relation-aware graph attention network) 用于对最终图特征进行计算。研究团队希望这个数据集能够促进医学领域视觉问答技术的发展,特别是为如 GPT-4 等 LLM 真正服务于临床提供基准,真正成为支持临床决策和患者教育有用的工具。

一、 目前医学 Vision Language 发展现状

医学 Vision Language 领域对现有医疗数据库进行了很多探索来训练深度学习模型。这些数据库包括,MIMIC-CXR, NIH14 和 CheXpert 等。在这些工作通常分为三类:疾病标签的直接分类 (图 2 (b)),医学报告生成 (图 2 (c)) 以及视觉问答任务 (图 2 (d))。疾病标签分类任务首先通过简单的 rule-based 工具,例如 NegBio 和 CheXpert,从报告内容中提取生成预先定义的标签, 随后对正样本和负样本进行分类。报告生成领域的方法繁多,诸如对比学习,Attention 模型,Encoder-Decoder 模型等,核心工作都是将图片信息转化为文字来拟合原始的报告。尽管这些任务取得了很多进展,但从具体临床应用角度来看仍存在局限性。

例如在疾病标签分类中 (图 2 (b)) 中,自然语言处理(NLP)规则经常处理不好不确定性和否定项,导致提取的标签出了不准确。同时,简单的标签只提供了单一的异常信息,无法反映临床疾病的多样性。报告生成系统 (图 2 (c)) 通过挖掘图像中的隐含信息避免这个问题,但是它不能结合临床情况回答医生关注的特定问题。例如图 2 (a) 中,原始放射学报告中排除了多种常见或是医生较为关注的疾病,但是人工报告生成器很难猜测放射科医师想要排除哪些疾病。

相比之下,视觉问答(VQA)任务 (图 2 (c)) 更加可行,因为它可以回答医生或病人所关注的特定问题,比如在之前提到的例子中,问题可以设定为 “图像中是否有气胸 “,而答案无疑是” 没有 “。然而,现有的 VQA 数据集 ImageCLEF-VQA-Med 仅仅包含少量通用问题,比如” 图像有什么问题吗?这张图像的主要异常是什么?",缺乏多样性。这样的问题不仅将 VQA 问题降级为分类问题,而且对临床提供的帮助信息也有限。虽然 VQA-RAD 涵盖 11 种问题类型的问题更加多样,但该数据集仅含有 315 张图像,无法充分发挥出需要大量数据投喂的深度学习模型的性能。为了填补医学 Vision Language 领域的这个空缺,该研究充分结合放射科医生的实践,提出了这项图像对比 VQA(difference VQA)任务,并且基于此任务构建了一个大型的 MIMIC-Diff-VQA 数据集。

ef4860da-3661-11ee-9e74-dac502259ad0.png

图 2:目前医学 Vision Language 各种方法的对比

二、 数据集介绍

MIMIC-Diff-VQA 数据集包括 164,654 张图片,和 700,703 问题,含盖 7 种不同的具有临床意义的问题类型,包括异常,存在,方位,位置,级别,类型,和差异。前六种问题和传统 VQA 一致,针对于当前图片提问,只有差异类型问题是针对两张图片的问题。各个问题的比例数据和完整问题列表请分别见图 3 和见表格 1。

ef922bfc-3661-11ee-9e74-dac502259ad0.png

图 3:MIMIC-Diff-VQA 问题类型的统计数据

efa52bd0-3661-11ee-9e74-dac502259ad0.png

表 1:每种问题类型的问题示例

三、数据集构建

依托于 MIMIC-CXR 提供的海量的胸部 X 光片图像和文本报告,从 377110 张图片和 227835 个放射学报告中,该研究在放射科医生的指导下构建了 MIMIC-Diff-VQA 数据集。

构造 MIMIC-Diff-VQA 数据集的第一步是提取一个 KeyInfo dataset。这个 KeyInfo dataset 包含每个放射学报告中的关键信息,比如报告中出现的肯定的异常对象,及其对应的异常名称、级别、类型、位置,以及否定出现的对象名。提取过程的第一步是根据医生的意见选取出最常用的异常关键词,和其对应的属性关键词(级别、类型、位置),之后再设定相应的规则对这些关键信息进行提取,同时保留其” 肯定 / 否定 “信息。

为了保证数据集构建的质量,该研究主要遵循 “提取 - 检查 - 修改” 的步骤,首先通过正则表达式设定的规则对数据库报告中的关键信息进行提取,然后利用手动和自动的方法对提取结果进行检查,接下来对出现问题的地方进行修改使提取结果更加准确。其中,检查时使用的自动方法包括:使用 ScispaCy 提取报告中的 entity 名称,考虑 Part-of-Speech 在句子中的作用,交叉验证 MIMIC-CXR-JPG 数据集中的 label 提取结果。综合这些自动化方法和手动验证筛选,通过 “提取 - 检查 - 修改” 的步骤,该研究最终完成了 KeyInfo dataset 的构建。

在完成 KeyInfo dataset 的构建之后,该研究便可以在其基础上设计每一个病人的单次或多次访问对应的问题和答案,最终构成了 MIMIC-Diff-VQA 数据集。

四、质量保证

为了进一步保证生成数据集的质量,该研究使用三个人工验证者随机对总计 1700 个考题和答案进行了人工验证,如表 2 所示,最终的平均正确率达到了 97.4%。

efd08c44-3661-11ee-9e74-dac502259ad0.png

表 2:人工验证数据集结果

五、Baseline 模型介绍

同时,在提出的数据集基础上,该研究针对胸部 X 光片和 Difference VQA 任务设计了一个图网络模型。如图 4 所示,考虑拍摄胸部 X 光片的过程中,到同一个病人在不同时间点可能由于身体姿态的不同,拍摄的图像可能伴随着大尺度的位移和改变。

efe9e748-3661-11ee-9e74-dac502259ad0.png

图 4:该研究提出方法的模型结构

因此,gai通过对输入的图片进行解剖学结构定位,并提取对应检测对象的特征作为图网络的节点,以排除病人身体姿态对特征的影响。图网络中的每一个节点是一个解剖学结构位置的特征与问题特征的结合。为了充分挖掘图像中可能包含的病变信息,该研究通过不同的预训练模型为每一个解剖学结构提取一个纯解剖学结构特征和一个疾病特征。

在 “多关系图网络模块” 中,该研究进行了三种不同的图网络关系来计算最终的图网络特征,包括:隐含关系,空间关系,语义关系。对于隐含关系,使用简单的全连接以让模型在潜在关系中发掘有价值的信息。对于空间关系,研究团队考虑了节点之间 11 种不同的空间关系作为边,并用 ReGAT (Relation-aware Graph Attention Network) 进行计算。对于语义关系,该研究引入了两种知识图谱,即,共现知识图谱(Co-occurrence Knowledge graph),和解剖学知识图谱(Anatomical Knowledge graph)。前者考虑不同疾病之间共同出现的概率关系,后者考虑疾病与解剖学之间的关系。

由于该研究在第一步提取了对应的解剖学结构特征和疾病特征,于是便可以将他们嵌入到这两种知识图谱当中。与空间关系的图网络计算类似,该研究考虑了三种语义关系:共现关系,解剖学关系,无关系,来作为图网络的边,每一种关系用一个数字标签来进行表征,并使用 ReGAT 进行运算。

最终,三种关系图网络计算后的节点特征进行全局平均池化,得到最终图像对应的图特征。将两张图片的图特征相减便可得到差异图特征。对这些特征通过注意力机制得到对应的特征向量,然后将两张图片的特征向量和相减后得到的差异特征向量输入最终的 LSTM 答案生成器,便可得到最终的答案。

该研究将模型与领域内最先进的方法做对比,包括 MMQ (Multiple Meta-model Quantifying), MCCFormers ( Multi-Change Captioning transformers), 和 IDCPCL (Image Difference Captioning with Pre-training and Contrastive Learning)。其中 MMQ 是传统医学 VQA 模型,MCCFormers 和 IDCPCL 是差异描述(Difference Captioning)模型。由于 MMQ 无法处理多张图像,该研究仅在除了 Difference 类问题以外的其他六种问题上将它与所提模型作对比。对于 MCCFormers 和 IDCPCL,由于他们不是 VQA 模型并且必须同时输入两张图片,因此该研究仅在 Difference 类问题上与他们进行对比。对比结果如表 3 和表 4 所示,该模型在 Difference VQA 上显示出了更优越的性能。

eff4df2c-3661-11ee-9e74-dac502259ad0.png

表 3:该研究提出的方法与 MMQ 在 non-difference 类问题上的准确率对比

f000f190-3661-11ee-9e74-dac502259ad0.png

表 4:几种方法与差异描述方法在 Difference 类问题上的对比

六、总结与讨论

该研究提出了一个医学 Difference VQA 问题,并收集了一个大规模的 MIMIC-Diff-VQA 数据集,以此希望能对推动学界相关技术的发展,同时为医学界提供有力的支持,包括提供临床决策辅助和患者教育工具等方面。同时,该研究设计了一个专家知识感知的多关系图网络模型来解决这个问题,为学界提供了一个基准模型作为参照。与当前在相关领域最先进的方法的比较表明,该研究所提方法取得了显著改进。

然而,该研究的数据集和方法仍存在一定的局限性,比如数据集没有考虑对于特殊情况下同一个病灶出现在多于两处的情况,以及同义词的合并也有进一步的提升空间。

此外,所提模型也会产生一些错误,包括:

对同一异常的不同呈现方面的混淆,例如肺不张和肺浸润被互相误认。

相同类型异常的不同名称,例如心影增大被错误分类为心脏肥大。

用于提取图像特征的预训练模型(Faster-RCNN)可能提供不准确的特征,并导致错误的预测,例如错误地将肺浸润识别为胸膜积液。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2822

    浏览量

    48041
  • 数据集
    +关注

    关注

    4

    文章

    1186

    浏览量

    24465
  • 大模型
    +关注

    关注

    2

    文章

    1862

    浏览量

    1485

原文标题:KDD2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【年度精选】2023年度top5榜单——鸿蒙技术社区问答

    在2023年,鸿蒙技术社区发布了一系列精选问答,每个问答都凝聚了开发者们的智慧和经验。这些问答涵盖了鸿蒙系统的不同领域,无论是应用开发、系统定制,还是性能优化、安全问题等,都能从中找到
    发表于 01-12 17:00

    PROTEL应用常见问题及问答集

    PROTEL应用常见问题及问答集
    发表于 08-04 16:31

    【高手问答】第5期——STM32硬件问答 

    *****************************往期回顾:【高手问答】第10期—宋雪松老师l手把手教你学51单片机【高手问答】第9期——工带你玩转STM32问答【高手
    发表于 07-28 10:36

    【高手问答】第9期——工带你玩转STM32问答

    工带你玩转STM32问答高手问答第9期小编导读: 一周一期的高手问答,又在周一与大家相见了。本期(8.25~8.31)的主题是与STM32相关的
    发表于 08-25 10:20

    航顺芯片问答集

    航顺芯片问答集
    发表于 09-13 18:14

    电源基本知识问答汇总

    电源基本知识问答20条,你答对了几条?
    发表于 01-29 07:18

    电容电路应用35个问答,你都能答对吗资料下载

    电子发烧友网为你提供电容电路应用35个问答,你都能答对吗资料下载的电子资料下载,更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料,希望可以帮助到广大的电子工程师们。
    发表于 03-28 08:45 1次下载
    电容电路应用35个<b class='flag-5'>问答</b>,你都能<b class='flag-5'>答对</b>吗资料下载

    无监督的多跳问答的可能性研究

    标注多跳问答(Multi-hop QA)数据集费时费力!本文首次研究了无监督的多跳问答的可能性,提出了MQG-QA,一种无监督的框架,从同构和异构数据源中自动生成多跳
    的头像 发表于 03-31 17:29 1884次阅读
    无监督的多跳<b class='flag-5'>问答</b>的可能性研究

    EMI/EMC设计经典70问答

    关于EMI/EMC设计的经典70问答
    发表于 06-07 09:40 25次下载

    全新科学问答数据集ScienceQA让深度学习模型推理有了思维链

    和艾伦人工智能研究院(AI2)提出了首个标注详细解释的多模态科学问答数据集 ScienceQA,用于测试模型的多模态推理能力。在 ScienceQA 任务中,作者提出 GPT-3 (CoT) 模型
    的头像 发表于 11-01 16:30 1110次阅读

    问答对话文本数据,构建智能问答对话系统的基础

    在人工智能领域的发展中,问答对话系统显得尤为重要。一方面,它为我们提供了常用的人机交互方式;另一方面,它也对互联网公司和其他机构提供了一种新的商业模式。不过,对话系统的核心技术之一就是问答对话文本数据
    的头像 发表于 06-18 23:02 429次阅读

    问答对话文本数据:解锁智能问答的未来

    在日常生活中,我们经常面临各种问题和需求,而智能问答系统作为一种人机交互工具,为我们提供了便捷的问题解答和信息获取方式。而问答对话文本数据作为推动智能问答系统发展的关键资源,扮演着重要
    的头像 发表于 07-13 14:19 367次阅读

    自然语言理解问答对话文本数据,赋予计算机智能交流的能力

    自然语言理解(Natural Language Understanding,简称NLU)问答对话文本数据是现代人工智能领域的一项重要资源。这些数据集涵盖了用户与计算机之间的自然语言交互,旨在让计算机
    的头像 发表于 08-07 18:11 498次阅读

    NVIDIA 知乎精彩问答甄选 | 分享 NVIDIA 助力医学研究的相关精彩问答

    NVIDIA 带来知乎精彩问答甄选系列,将为您精选知乎上有关 NVIDIA 产品的精彩问答。 本期为问答甄选第十七期 ——  分享 NVIDIA 助力医学研究的相关精彩
    的头像 发表于 11-24 19:25 326次阅读
    NVIDIA 知乎精彩<b class='flag-5'>问答</b>甄选 | 分享 NVIDIA 助力<b class='flag-5'>医学</b>研究的相关精彩<b class='flag-5'>问答</b>

    NVIDIA 知乎精彩问答甄选 | 探索 AI 如何推动工作流升级相关精彩问答

    NVIDIA 带来知乎精彩问答甄选系列,将为您精选知乎上有关 NVIDIA 产品的精彩问答。 本期为问答甄选第十九期 —— 探索 AI 如何推动工作流升级相关精彩
    的头像 发表于 12-14 16:10 218次阅读
    NVIDIA 知乎精彩<b class='flag-5'>问答</b>甄选 | 探索 <b class='flag-5'>AI</b> 如何推动工作流升级相关精彩<b class='flag-5'>问答</b>