0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文速览医学多模态进展

深度学习自然语言处理 来源:RUC AI Box 作者:杨锦霞 2022-12-07 11:08 次阅读

引言:目前,自然图像-文本的多模态预训练模型已经在各种各样的下游任务上取得了非常好的效果,但是由于域之间的差异很难直接迁移到医学领域。同时,获取有标注的医学图像领域的数据集通常需要大量的专业知识和较高的成本,所以从对应的放射学报告中得到有效监督从而提高性能成为一种可能。本文主要介绍医学的多模态模型的进展,这些模型方法在下游的分类、分割、检索、图像生成等任务上均取得了性能的提升。

Contrastive Learning of Medical Visual Representations from Paired Images and Text

http://arxiv.org/abs/2010.00747

这篇文章提出了ConVIRT框架,核心思想其实就是多模态的对比学习,是CLIP之前的工作,CLIP文中也有说受到ConVIRT的启发,其使用其实的是ConVIRT的简化版本。ConVIRT的整体架构如下:

45248c42-75db-11ed-8abf-dac502259ad0.png

主要流程比较直观:一张图片先做随机变换得到不同的视图,然后进入Image Encoder,最后接一个非线性变化得到512维的特征表示;对与该图片配对的放射学报告,首先进行随机采样得到其中的某句话,然后进入TextEncoder,最后通过得到512维的特征表示;最后分别对图片和文本计算infoNCE loss。 GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-efficient Medical Image Recognition【ICCV2021】

https://ieeexplore.ieee.org/document/9710099/

本文主要从全局和局部进行医学图像的表示学习,提出GLoRIA模型,主要使用注意机制,通过匹配放射学报告中的单词和图像子区域来学习图像的全局-局部表示。其中创建上下文感知的局部图像表示是通过学习基于特定单词的重要图像子区域的注意力权重。如下图中基于单词“effusion”(积液)得到的图像区域积液的权重就比较大。

4574a33a-75db-11ed-8abf-dac502259ad0.png

下图是进行全局和局部学习的方法图。给定一对医学图像和报告,首先使用图像编码器和文本编码器分别提取图像和文本特征。

4592c4a0-75db-11ed-8abf-dac502259ad0.png

全局图像-文本表示是通过全局对比损失进行学习的。为了学习局部表征,首先基于图像子区域特征和词级特征计算相似性矩阵,以生成注意力加权图像表示(Attention weighted image representation)。首先计算文本和图像特征的所有组合之间的点积相似性:

45aceb50-75db-11ed-8abf-dac502259ad0.png

上式得到的表示的是个单词和个图像子区域的相似性矩阵,表示的就是第个单词和第个图像子区域之间的相似性。之后通过下面的softmax得到注意力权重:

45ba68d4-75db-11ed-8abf-dac502259ad0.png

对于报告中的每个单词,我们根据其与所有图像子区域的相似性计算注意力加权图像表示:

45ccc0ce-75db-11ed-8abf-dac502259ad0.png

之后通过局部的对比损失来实现这一目标:使用函数计算单词与其相应的注意力加权图像特征之间的相似性。

45ddd90e-75db-11ed-8abf-dac502259ad0.png

在给定词表示的情况下,Local contrastive loss的目标是使注意加权图像区域表示的后验概率最大化:

45f2b554-75db-11ed-8abf-dac502259ad0.png

本文主要在图像分类、检索和分割上进行性能评估。其中分类和检索也是结合全局和局部图像文本相似性去实现的。具体来说:通过图像和文本表示提取特征后,基于全局图像和文本表示计算全局相似度;利用基于词的注意加权图像表示和对应的词表示计算局部相似度。通过全局相似度和局部相似度的平均得到最终的图像文本相似度。

460b2936-75db-11ed-8abf-dac502259ad0.png

但对于分类来说,其没有具体的文本表示,GLoRIA的做法是预生成合理的文本,以描述分类类别中每种疾病子类型、严重程度和位置。通过随机组合子类型、严重性和位置的可能单词生成文本提示来作为每个分类类的文本。 MedCLIP: Contrastive Learning from Unpaired Medical Images and Text【EMNLP 2022】

http://arxiv.org/abs/2210.10163

这篇文章提出了MedCLIP模型,出发点一方面是医学图像文本数据集比互联网上的一般图像文本数据集要少几个数量级,另一方面是以前的方法会遇到许多假阴性,即来自不同患者的图像和报告可能具有相同的语义,但被错误地视为负样本。所以MedCLIP通过将图片文本对进行解耦然后进行对比学习,通过引入外部医学知识而减少假阴性。

46205180-75db-11ed-8abf-dac502259ad0.png

假设有个成对的图像文本样本、个标记的图像和个医学句子。以前的方法只能使用对样本,但MedCLIP将个图像文本对分别解耦为个图像和个句子。最终能够通过遍历所有可能的组合来获得图像文本对,所以这样就可以得到倍的监督信号。 为了完成额外的监督,MedCLIP利用外部医学知识来构建知识驱动的语义相似性。这里MedCLIP使用了外部工具MetaMap,MetaMap是可以从原始句子中提取统一医学语言系统(UMLS)中定义的实体。遵循之前工作的做法,主要关注14种主要实体类型。同样,对于带有诊断标签的图像,也是利用MetaMap将原始类映射到UMLS概念,从而与文本中的实体对齐,例如,“Normal”映射到“No Findings”。接下来就可以从提取的图像和文本实体中构建multi-hot向量,分别为和。因此,通过这种方式统一了图像和文本的语义。对于任何图像和文本,MedCLIP就可以通过比较相应的和来衡量它们的语义相似性。 MedCLIP通过构建的语义标签和来连接图像和文本,首先可以得到soft targets:

46320fba-75db-11ed-8abf-dac502259ad0.png

表示的就是医学语义的相似性。对图片和文本分别进行softmax:

464c7256-75db-11ed-8abf-dac502259ad0.png

另外我们也可以通过直接将图像和文本特征计算余弦相似性得到logit,同样进行softmax处理:

466287b2-75db-11ed-8abf-dac502259ad0.png

468e4eb0-75db-11ed-8abf-dac502259ad0.png

因此,Semantic Matching Loss是logits和soft targets之间的交叉熵:

469b3512-75db-11ed-8abf-dac502259ad0.png

Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning【NIPS 2022】

http://arxiv.org/abs/2210.06044

这篇文章提出MGCA框架,通过多粒度跨模态对齐学习通用医学视觉表示。如下图所示,医学图像和放射学报告会在不同层级自然而然表现出多粒度语义对应关系:疾病层级、实例层级和病理区域层级。

46b49e08-75db-11ed-8abf-dac502259ad0.png

图像和文本首先分别经过图像和文本编码器,得到一系列token表示,然后通过下面三个模块实现三个粒度的对应:

46d13112-75db-11ed-8abf-dac502259ad0.png

Instance-wise Image-Text Alignment (ITA):进行实例级别的对齐,即图像文本的对比损失。 Cross-attention-based Token-wise Alignment (CTA):基于交叉注意力机制的token级别的对齐。这个模块的出发点对应到前面的病理区域级别,用CTA模块来显式匹配和对齐局部的医学图像和放射学报告。思路是进行token级别的对齐,使用交叉注意计算生成的视觉和文本token之间的一个匹配。形式上,对于第个图像文本对中的第个视觉token,我们让去和对应的文本中的所有token计算其对应的跨模态文本嵌入,看作得到了和图片token相似的文本信息

46e64f98-75db-11ed-8abf-dac502259ad0.png

之后采用local image-to-text alignment 损失来将图片token接近其交叉模态文本嵌入,但将推离其他跨模态文本嵌入,同时考虑到不同的视觉标记具有不同的重要性(例如,包含病理的视觉标记显然比具有不相关信息的视觉标记更重要),我们在计算LIA损失时为视觉token分配权重。因此,如下:

46f5d382-75db-11ed-8abf-dac502259ad0.png

Cross-modal Prototype Alignment (CPA):ITA 和 CTA 都将来自不同实例的样本视为负对,所以可能会把有许多类似的语义的样本在嵌入空间推开,例如相同的疾病的对。因此,CPA模块是为了进行疾病级别的对齐。首先使用迭代的聚类算法Sinkhorn-Knopp,文本和图像分别被聚类算法预测结果是和,同时有个可学习的原型聚类中心,,可以直接计算得到图像/文本和每个类中心的softmax概率:

470aabcc-75db-11ed-8abf-dac502259ad0.png

跨模态疾病水平(即原型)对齐是通过进行跨模态预测和优化以下两个交叉熵损失来实现的。使用 作为“伪标签”来训练图像表示,作为“伪标签”来训练文本表示:

471a8952-75db-11ed-8abf-dac502259ad0.png

最后,CPA损失是所有图像报告对中两个预测损失的平均值:

4728eec0-75db-11ed-8abf-dac502259ad0.png

MGCA总的目标是三个模块目标的加权和。 LViT: Language meets Vision Transformer in Medical Image Segmentation

http://arxiv.org/abs/2206.14718

LViT 模型主要用于医学图像分割,是一个双 U 结构,由一个 U 形 CNN 分支和一个 U 形 Transformer 分支组成。CNN 分支负责图片输入和预测输出,ViT 分支用于合并图像和文本信息,利用 Transformer 处理跨模态信息。

4749997c-75db-11ed-8abf-dac502259ad0.png

U 形 ViT 分支设计用于合并图像特征和文本特征。第一层DownViT模块接收文本特征输入和来自第一层DownCNN模块的图像特征输入。特定的跨模态特征合并操作由以下等式表示:

4767c532-75db-11ed-8abf-dac502259ad0.png

后续 DownViT 模块既接收来自上层 DownViT 模块的特征,又接收来自相应层的 DownCNN 模块的特征。 然后,对应尺寸的特征通过 UpViT 模块传输回 CNN-ViT 交互模块。并且该特征与相应层的 DownCNN 模块中的特征合并。这将最大限度地提取图像全局特征,并避免由于文本注释的不准确性而导致的模型性能振荡。 PLAM模块的设计如上图b所示,旨在保留图像的局部特征,并进一步合并文本中的语义特征;

4783fe82-75db-11ed-8abf-dac502259ad0.png

为了扩展 LViT 的半监督版本,LViT使用指数伪标签迭代机制(EPI)。其中表示模型的预测,通过不简单地使用一代模型预测的伪标签作为下一代模型的目标从而避免伪标签质量下降。因此,EPI可以逐步优化模型对每个未标记像素的分割预测结果,并对噪声标签具有鲁棒性。

47ab5e1e-75db-11ed-8abf-dac502259ad0.png

为了进一步利用文本信息来指导伪标签的生成,设计了Languane-Vision Loss函数。首先计算对应于伪标签的文本特征向量和用于对比标签的文本特征向量之间的余弦相似性TextSim。之后根据TextSim,选择相似度最高的对比文本,并找到与该文本对应的图像mask。然后再计算图片的伪标签和对比标签之间的相似性:

47be8278-75db-11ed-8abf-dac502259ad0.png

对比标签主要提供近似位置的标签信息,而不是边界的细化。因此的主要目的是避免差异显著的分割错误或错误标记病例。因此只在未标记的情况下使用LV损失,在没有标签的情况下,可以避免伪标签质量的急剧恶化。 Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains

http://arxiv.org/abs/2210.04133

目前许多生成模型虽然表现出了出色的生成能力,但它们通常不能很好地推广到特定领域,例如医学图像领域。但是,利用生成模型生成一些医学图像出来可能有助于缓解医疗数据集的匮乏。因此,这项工作主要是研究将大型预训练基础模型的表示能力扩展到医学概念,具体来说,本文是利用扩散模型stable diffusion生成医学图像。

47d1822e-75db-11ed-8abf-dac502259ad0.png

主要是利用了稳定扩散模型的架构,将整个设定转化为了放射学的图像和文本。具体流程如上图二所示,给定随机噪声进行去噪,在这个过程中会有文本作为条件去影响去噪的过程,最后使用VAE的解码器进行图像的生成。整个工作是比较偏实验和验证性的。主要从stable diffusion的各个模块进行训练,包括VAE、Text Encoder、Textual Projection、Textual Embeddings Fine-tuning、U-Net Fine-tuning。

47ea3cce-75db-11ed-8abf-dac502259ad0.png

通过两个简单的prompt:“肺部射线照片”和“带有可见胸腔积液的射线照片”来测试不同设置下的生成能力。并通过定量的FID指标进行评估。

483dc3c6-75db-11ed-8abf-dac502259ad0.png

从定性和定量的结果来看,表现最好的是U-Net训练的第二种设定,能够生成较好的图片的同时还能匹配文本的语义,能够理解有无“胸腔积液”的区别。 Generalized radiograph representation learning via cross-supervision between images and free-text radiology reports【Natural Machine Intelligence 2022】

https://arxiv.org/abs/2111.03452

本文提出REFERS模型,主要通过在图像和文本对上进行交叉监督学习去得到放射学表征。

4857cd7a-75db-11ed-8abf-dac502259ad0.png

主要考虑到每项患者研究通常都有一份自由文本报告但是通常涉及不止一张 X 光片。首先通过radiograph transformer来提取不同视图的相关特征表示。为了充分利用每份报告的信息,设计了一个基于注意力机制的视图融合模块,以同时处理患者研究中的所有射线照片并融合多个特征。 接下来进行交叉监督学习,从自由文本放射学报告中获取监督信号。主要通过两个任务:reportgeneration和study–report representation consistency reinforcement实现监督。第一项任务采用原始放射学报告中的自由文本来监督radiograph transformer的训练过程。第二项任务加强了患者研究的视觉表示与其相应报告的文本表示之间的一致性。第一项任务主要通过report transformer在给定图像和前面的token的条件下进行token的生成:

487bbd98-75db-11ed-8abf-dac502259ad0.png

第二项任务通过图像和文本的对比来实现。 RoentGen: Vision-Language Foundation Model for Chest X-ray Generation

http://arxiv.org/abs/2211.12737

本文提出了RoentGen,是用于合成高保真的胸片的生成模型,能够通过自由形式的医学语言文本prompt进行插入、组合和修改各种胸片的成像,同时能够具有相应医学概念的高度的图像相关性。

488a921e-75db-11ed-8abf-dac502259ad0.png

使用RoentGen对胸部X射线图像进行文本到图像合成流程如上图所示。使用微调或重新训练的U-Net 对随机高斯噪声进行降噪,同时此过程中会有文本编码器从医疗文本提示得到的编码。最后VAE的解码器将去噪的向量映射到像素空间,从而产生高保真、多样化的胸部射线图像。 其中,微调或重新训练的具体方式是这样的:使用文本编码器和VAE,对提示和相应的图像进行编码,并将采样噪声添加到后者的潜在表示中,之后U-Net进行预测原始采样噪声:

48a8cfcc-75db-11ed-8abf-dac502259ad0.png

计算真实噪声和预测噪声之间的MSE loss,由此提高生成能力:

48b85a96-75db-11ed-8abf-dac502259ad0.png

总结:目前医学多模态通过不同的模型设计从而学习局部语义、获取更多相关知识信息、尽可能利用现有数据集、生成图像以尽可能弥补数据量少的问题,在下游的多种任务上得到了性能提升。如何进一步学习更加通用的医学模型、如何将其应用到实际中是仍然值得思考和探索的。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3571

    浏览量

    133960
  • 图像
    +关注

    关注

    2

    文章

    1078

    浏览量

    40372
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24617

原文标题:一文速览医学多模态进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI大模型的最新研究进展

    AI大模型的最新研究进展体现在多个方面,以下是对其最新进展的介绍: 、技术创新与突破 生成式AI技术的爆发 : 生成式AI技术正在迅速发展,其强大的生成能力使得AI大模型在多个领域得到广泛应用
    的头像 发表于 10-23 15:19 243次阅读

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,模态
    的头像 发表于 10-18 09:39 246次阅读

    云知声推出山海模态大模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态大模型,正式宣告“Her时代
    的头像 发表于 08-27 15:20 342次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    文本生成、语言理解、图像识别及视频生成等模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新代 LLM-Based的自然交互,同时
    发表于 04-18 17:01 549次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型

    2024百度智能云GENERATE全球生态大会干货

    2024百度智能云GENERATE全球生态大会干货
    的头像 发表于 04-09 09:37 403次阅读
    2024百度智能云GENERATE全球生态大会干货<b class='flag-5'>速</b><b class='flag-5'>览</b>

    谷歌推出模态VLOGGER AI

    谷歌最新推出的VLOGGER AI技术引起了广泛关注,这项创新的模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供张人物肖像照片和段音频内容,VLOGGER AI就能让图
    的头像 发表于 03-22 10:45 751次阅读

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 348次阅读
    机器人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b>语言视觉大模型

    什么是模态模态的难题是什么?

    模态大模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。
    的头像 发表于 01-17 10:03 4316次阅读
    什么是<b class='flag-5'>多</b><b class='flag-5'>模态</b>?<b class='flag-5'>多</b><b class='flag-5'>模态</b>的难题是什么?

    从Google模态大模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini模态大模型,展示了不凡的对话能力和模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 1157次阅读
    从Google<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型看后续大模型应该具备哪些能力

    语音识别技术最新进展:视听融合的模态交互成为主要演进方向

    电子发烧友网报道(/李弯弯)所谓“模态”,英文是modality,用通俗的话说,就是“感官”,模态即将多种感官融合。
    的头像 发表于 12-28 09:06 3509次阅读
    语音识别技术最新<b class='flag-5'>进展</b>:视听融合的<b class='flag-5'>多</b><b class='flag-5'>模态</b>交互成为主要演进方向

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能
    的头像 发表于 12-15 14:28 8696次阅读

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将介绍“大模型+
    的头像 发表于 12-13 13:55 1585次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    千亿参数模态大模型,“紫东太初”规模化应用加速

    电子发烧友网报道(/李弯弯)过去近年时间,国内外大模型技术越来越成熟,并逐步在不同场景中实现实现应用。在国内,作为早早布局模态大模型的科研机构,中国科学院自动化研究所自2019年
    的头像 发表于 12-08 00:09 2006次阅读

    用语言对齐模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 预训练方法通常仅适用于视觉和语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同模态的信息,并且能够在多个模态之间建立准确的语义
    的头像 发表于 11-23 15:46 642次阅读
    用语言对齐<b class='flag-5'>多</b><b class='flag-5'>模态</b>信息,北大腾讯等提出LanguageBind,刷新多个榜单

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手,将单模态
    发表于 11-09 14:53 467次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的可行性