0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CMU最新《多模态机器学习的基础和最新趋势》综述

新机器视觉 来源:专知 作者:专知 2022-12-07 14:43 次阅读

57ae762e-75e6-11ed-8abf-dac502259ad0.png

论文:Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址:https://arxiv.org/pdf/2209.03430.pdf

多模态机器学习是一个充满活力的多学科研究领域,旨在通过整合多种交流模态,包括语言、声学、视觉、触觉和生理信息,设计具有理解、推理和学习等智能能力的计算机智能体。随着最近人们对视频理解、具身化自主智能体、文本到图像生成以及医疗健康和机器人等应用领域的多传感器融合的兴趣,多模态机器学习给机器学习社区带来了独特的计算和理论挑战,因为数据源的异质性和模式之间经常发现的相互联系。然而,多模态研究的广泛进展使得很难确定该领域的共同主题和开放问题。通过从历史和最近的角度综合广泛的应用领域和理论框架,本文旨在提供一个多模态机器学习的计算和理论基础的概述。我们首先定义了驱动后续创新的模态异质性和相互联系的两个关键原则,并提出了6个核心技术挑战的分类:表征、对齐、推理、生成、转移和涵盖历史和近期趋势的量化。最新的技术成果将通过这种分类法来展示,让研究人员了解新方法的异同。最后,我们提出了几个由我们的分类法确定的开放问题,以供未来研究。

开发具有智能能力的计算机智能体一直是人工智能的一个宏伟目标,如通过多模态经验和数据进行理解、推理和学习,就像我们人类使用多种感官模式感知世界的方式一样。随着近年来在具身自主代理[77,512]、自动驾驶汽车[647]、图像和视频理解[16,482,557]、文本到图像生成[486]以及机器人[335,493]和医疗健康[281,357]等应用领域的多传感器融合方面的进展,我们现在比以往任何时候都更接近能够集成许多感官形态并从中学习的智能体。多模态机器学习这一充满活力的多学科研究领域带来了独特的挑战,因为数据的异质性和通常在模态之间发现的相互联系,并在多媒体[351,435]、情感计算[353,476]、机器人[308,334]、人机交互[445,519]和医疗健康[85,425]中有广泛的应用。

然而,多模态研究的进展速度使得很难确定历史和近期工作的共同主题,以及该领域的关键开放问题。通过从历史和最近的角度综合广泛的应用领域和理论见解,本文旨在提供多模态机器学习的方法论、计算和理论基础的概述,这很好地补充了最近在视觉和语言[603]、语言和强化学习[382]、多媒体分析[40]和人机交互[269]等面向应用的研究。

581f04f2-75e6-11ed-8abf-dac502259ad0.png

图1:多模态学习的核心研究挑战:(1)表示研究如何表示和总结多模态数据,以反映单个模态元素之间的异质性和相互联系。(2)对齐旨在识别所有元素之间的联系和相互作用。(3)推理的目的是将多模态证据组合成知识,通常通过对一个任务的多个推理步骤。(4)生成包括学习生成过程,以产生反映跨模态交互、结构和一致性的原始模态。(5)迁移旨在在模态及其表示之间迁移知识。(6)量化包括实证和理论研究,以更好地理解异质性、相互联系和多模态学习过程。

为了建立多模态机器学习的基础,我们首先为数据模式和多模态研究的定义奠定基础,然后确定驱动后续技术挑战和创新的两个关键原则:(1)模态是异质的,因为在不同模态中出现的信息往往表现出不同的质量、结构和表征;(2)模态是相互联系的,因为它们经常相关、共享共性,或在用于任务推断时相互作用产生新信息。基于这些定义,我们提出了多模态机器学习中的六个核心挑战的新分类:表示、对齐、推理、生成、迁移和量化(见图1)。这些构成了传统单模态机器学习中研究不足的核心多模态技术挑战,为了推动该领域向前发展,需要解决这些挑战:

1. 表征: 我们能学习反映个体模态元素之间的异质性和相互联系的表征吗?本文将涵盖以下基本方法:(1)表示融合:整合来自2个或更多模态的信息,有效减少单独表示的数量;(2)表示协调:互换跨模态信息,目标是保持相同的表示数量,但改善多模态语境化;创建一个新的不相交的表示集,其数量通常大于输入集,反映有关内部结构的知识,如数据聚类或因子分解。

2. 对齐:我们如何识别样式元素之间的连接和交互?模态之间的对齐具有挑战性,涉及(1)识别模态元素之间的连接,(2)上下文表示学习以捕获模态连接和交互,以及(3)处理具有歧义分割的模态输入。

3. 推理被定义为从多模态证据中组合知识,通常通过多个推理步骤,为特定任务开发多模态对齐和问题结构。这种关系通常遵循某种层次结构,更抽象的概念在层次结构中被定义为较不抽象的概念的函数。推理包括(1)对推理发生的结构建模,(2)推理过程中的中间概念,(3)理解更抽象概念的推理范式,(4)在结构、概念和推理的研究中利用大规模的外部知识。

4. 生成:第四个挑战涉及学习生成过程,以生成反映每个模态的独特异质性和模态之间的相互联系的原始模态。我们将其子挑战分类为:(1)总结:总结多模态数据以减少信息内容,同时突出输入中最突出的部分;(2)翻译:从一种模态转换到另一种模态并保持信息内容,同时与跨模态交互保持一致;(3)创造:同时生成多个模态以增加信息内容,同时保持模态内部和跨模态的一致性。

5. 迁移旨在在模态及其表示之间迁移知识,通常用于帮助可能有噪声或资源有限的目标模态。以以下算法为例:(1)跨模态迁移:使模型适应涉及主要模态的下游任务;(2)共同学习:通过在两种模态之间共享表示空间,将信息从次要模态转移到主要模态;保持单个单模态模型独立,但在这些模型之间传递信息,从一种模态学到的知识(例如,预测的标签或表示)如何帮助以另一种模态训练的计算模型?

6. 量化: 第六个挑战涉及实证和理论研究,以更好地理解异质性、模态相互联系和多模态学习过程。量化旨在理解(1)多模态数据集的异质性维度以及它们如何影响建模和学习,(2)多模态数据集和训练过的模型中模态连接和交互的存在和类型,以及(3)异构数据涉及的学习和优化挑战。

最后,我们对多模态学习的未来研究方向提出了一个长远的展望。

5839d4a8-75e6-11ed-8abf-dac502259ad0.jpg

58503e32-75e6-11ed-8abf-dac502259ad0.jpg

588f42bc-75e6-11ed-8abf-dac502259ad0.jpg

58b9bf7e-75e6-11ed-8abf-dac502259ad0.jpg

58d724b0-75e6-11ed-8abf-dac502259ad0.jpg

58fcea56-75e6-11ed-8abf-dac502259ad0.jpg

59260314-75e6-11ed-8abf-dac502259ad0.jpg

5945c23a-75e6-11ed-8abf-dac502259ad0.jpg

5988050a-75e6-11ed-8abf-dac502259ad0.jpg

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    210

    文章

    27838

    浏览量

    204586
  • 机器学习
    +关注

    关注

    66

    文章

    8306

    浏览量

    131841
  • 智能体
    +关注

    关注

    1

    文章

    119

    浏览量

    10537

原文标题:CMU最新《多模态机器学习的基础和最新趋势》综述

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    云知声推出山海模态大模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态大模型,正式宣告“Her时代
    的头像 发表于 08-27 15:20 257次阅读

    如何看待半导体行业未来的新趋势

    如何看待半导体行业未来的新趋势
    的头像 发表于 04-25 11:38 543次阅读
    如何看待半导体行业未来的<b class='flag-5'>新趋势</b>

    AI机器人迎来模态模型

    配备 GR00T 模型的机器人由于需要“吸收消化”外界的模态信息,还要快速完成理解、决策、行动等一系列动作,因此对于算力的需求是巨量的。
    发表于 04-12 10:39 215次阅读

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 289次阅读
    <b class='flag-5'>机器</b>人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b>语言视觉大模型

    什么是模态模态的难题是什么?

    模态大模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。
    的头像 发表于 01-17 10:03 3754次阅读
    什么是<b class='flag-5'>多</b><b class='flag-5'>模态</b>?<b class='flag-5'>多</b><b class='flag-5'>模态</b>的难题是什么?

    从Google模态大模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini模态大模型,展示了不凡的对话能力和模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 1011次阅读
    从Google<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型看后续大模型应该具备哪些能力

    语音识别技术最新进展:视听融合的模态交互成为主要演进方向

    多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习模态语音识别取得了新进展。  
    的头像 发表于 12-28 09:06 2844次阅读
    语音识别技术最新进展:视听融合的<b class='flag-5'>多</b><b class='flag-5'>模态</b>交互成为主要演进方向

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了一个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能应用。本文将详细介绍
    的头像 发表于 12-15 14:28 7270次阅读

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将介绍“大模型+
    的头像 发表于 12-13 13:55 1352次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手,将单模态
    发表于 11-09 14:53 399次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的可行性

    北大&amp;华为提出:模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点
    的头像 发表于 11-08 16:20 557次阅读
    北大&amp;华为提出:<b class='flag-5'>多</b><b class='flag-5'>模态</b>基础大模型的高效微调

    稳石机器人第五代模态柔性AMR、无人叉车震撼登场 全球首发

    10月31日,以“算法探见未来,创新引领模态时代”为主题的2023稳石机器人第五代模态新品发布会圆满落幕。本次活动邀请了众多业内专家、客
    的头像 发表于 11-01 19:18 648次阅读
    稳石<b class='flag-5'>机器</b>人第五代<b class='flag-5'>多</b><b class='flag-5'>模态</b>柔性AMR、无人叉车震撼登场 全球首发

    基于视觉的模态触觉感知系统

    传统的模态/多任务触觉感知系统通过集成多种传感单元来达到模态触觉信息的解耦,但其往往导致系统结构的复杂性,以及需要应对来自不同刺激间的干扰。
    发表于 10-18 11:24 708次阅读
    基于视觉的<b class='flag-5'>多</b><b class='flag-5'>模态</b>触觉感知系统

    模态大模型最全综述来了!

    其中最后一个表示监督信号是从图像本身中挖掘出来的,流行的方法包括对比学习、非对比学习和masked image建模。在这些方法之外,文章也进一步讨论了模态融合、区域级和像素级图像理解
    的头像 发表于 09-26 16:42 2304次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型最全<b class='flag-5'>综述</b>来了!

    DreamLLM:多功能模态大型语言模型,你的DreamLLM~

    由于固有的模态缺口,如CLIP语义主要关注模态共享信息,往往忽略了可以增强多模态理解的模态特定知识。因此,这些研究并没有充分认识到模式创造
    的头像 发表于 09-25 17:26 614次阅读
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模态</b>大型语言模型,你的DreamLLM~