CMU最新《多模态机器学习的基础和最新趋势》综述-电子发烧友网

论文：Foundations and Recent Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

地址：https://arxiv.org/pdf/2209.03430.pdf

多模态机器学习是一个充满活力的多学科研究领域，旨在通过整合多种交流模态，包括语言、声学、视觉、触觉和生理信息，设计具有理解、推理和学习等智能能力的计算机智能体。随着最近人们对视频理解、具身化自主智能体、文本到图像生成以及医疗健康和机器人等应用领域的多传感器融合的兴趣，多模态机器学习给机器学习社区带来了独特的计算和理论挑战，因为数据源的异质性和模式之间经常发现的相互联系。然而，多模态研究的广泛进展使得很难确定该领域的共同主题和开放问题。通过从历史和最近的角度综合广泛的应用领域和理论框架，本文旨在提供一个多模态机器学习的计算和理论基础的概述。我们首先定义了驱动后续创新的模态异质性和相互联系的两个关键原则，并提出了6个核心技术挑战的分类:表征、对齐、推理、生成、转移和涵盖历史和近期趋势的量化。最新的技术成果将通过这种分类法来展示，让研究人员了解新方法的异同。最后，我们提出了几个由我们的分类法确定的开放问题，以供未来研究。

开发具有智能能力的计算机智能体一直是人工智能的一个宏伟目标，如通过多模态经验和数据进行理解、推理和学习，就像我们人类使用多种感官模式感知世界的方式一样。随着近年来在具身自主代理[77,512]、自动驾驶汽车[647]、图像和视频理解[16,482,557]、文本到图像生成[486]以及机器人[335,493]和医疗健康[281,357]等应用领域的多传感器融合方面的进展，我们现在比以往任何时候都更接近能够集成许多感官形态并从中学习的智能体。多模态机器学习这一充满活力的多学科研究领域带来了独特的挑战，因为数据的异质性和通常在模态之间发现的相互联系，并在多媒体[351,435]、情感计算[353,476]、机器人[308,334]、人机交互[445,519]和医疗健康[85,425]中有广泛的应用。

然而，多模态研究的进展速度使得很难确定历史和近期工作的共同主题，以及该领域的关键开放问题。通过从历史和最近的角度综合广泛的应用领域和理论见解，本文旨在提供多模态机器学习的方法论、计算和理论基础的概述，这很好地补充了最近在视觉和语言[603]、语言和强化学习[382]、多媒体分析[40]和人机交互[269]等面向应用的研究。

图1:多模态学习的核心研究挑战:(1)表示研究如何表示和总结多模态数据，以反映单个模态元素之间的异质性和相互联系。(2)对齐旨在识别所有元素之间的联系和相互作用。(3)推理的目的是将多模态证据组合成知识，通常通过对一个任务的多个推理步骤。(4)生成包括学习生成过程，以产生反映跨模态交互、结构和一致性的原始模态。(5)迁移旨在在模态及其表示之间迁移知识。(6)量化包括实证和理论研究，以更好地理解异质性、相互联系和多模态学习过程。

为了建立多模态机器学习的基础，我们首先为数据模式和多模态研究的定义奠定基础，然后确定驱动后续技术挑战和创新的两个关键原则:(1)模态是异质的，因为在不同模态中出现的信息往往表现出不同的质量、结构和表征;(2)模态是相互联系的，因为它们经常相关、共享共性，或在用于任务推断时相互作用产生新信息。基于这些定义，我们提出了多模态机器学习中的六个核心挑战的新分类:表示、对齐、推理、生成、迁移和量化(见图1)。这些构成了传统单模态机器学习中研究不足的核心多模态技术挑战，为了推动该领域向前发展，需要解决这些挑战:

1. 表征: 我们能学习反映个体模态元素之间的异质性和相互联系的表征吗?本文将涵盖以下基本方法:(1)表示融合:整合来自2个或更多模态的信息，有效减少单独表示的数量;(2)表示协调:互换跨模态信息，目标是保持相同的表示数量，但改善多模态语境化;创建一个新的不相交的表示集，其数量通常大于输入集，反映有关内部结构的知识，如数据聚类或因子分解。

2. 对齐:我们如何识别样式元素之间的连接和交互?模态之间的对齐具有挑战性，涉及(1)识别模态元素之间的连接，(2)上下文表示学习以捕获模态连接和交互，以及(3)处理具有歧义分割的模态输入。

3. 推理被定义为从多模态证据中组合知识，通常通过多个推理步骤，为特定任务开发多模态对齐和问题结构。这种关系通常遵循某种层次结构，更抽象的概念在层次结构中被定义为较不抽象的概念的函数。推理包括(1)对推理发生的结构建模，(2)推理过程中的中间概念，(3)理解更抽象概念的推理范式，(4)在结构、概念和推理的研究中利用大规模的外部知识。

4. 生成:第四个挑战涉及学习生成过程，以生成反映每个模态的独特异质性和模态之间的相互联系的原始模态。我们将其子挑战分类为:(1)总结:总结多模态数据以减少信息内容，同时突出输入中最突出的部分;(2)翻译:从一种模态转换到另一种模态并保持信息内容，同时与跨模态交互保持一致;(3)创造:同时生成多个模态以增加信息内容，同时保持模态内部和跨模态的一致性。

5. 迁移旨在在模态及其表示之间迁移知识，通常用于帮助可能有噪声或资源有限的目标模态。以以下算法为例:(1)跨模态迁移:使模型适应涉及主要模态的下游任务;(2)共同学习:通过在两种模态之间共享表示空间，将信息从次要模态转移到主要模态;保持单个单模态模型独立，但在这些模型之间传递信息，从一种模态学到的知识(例如，预测的标签或表示)如何帮助以另一种模态训练的计算模型?

6. 量化: 第六个挑战涉及实证和理论研究，以更好地理解异质性、模态相互联系和多模态学习过程。量化旨在理解(1)多模态数据集的异质性维度以及它们如何影响建模和学习，(2)多模态数据集和训练过的模型中模态连接和交互的存在和类型，以及(3)异构数据涉及的学习和优化挑战。

最后，我们对多模态学习的未来研究方向提出了一个长远的展望。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28413

浏览量
207036
机器学习

机器学习

+关注

关注
66

文章
8416

浏览量
132616
智能体

智能体

+关注

关注
1

文章
149

浏览量
10578

原文标题：CMU最新《多模态机器学习的基础和最新趋势》综述

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •175次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建多

发表于 12-03 15:18 •127次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •430次阅读

多通道开关滤波器的创新者，引领电磁兼容技术新趋势

维爱普|多通道开关滤波器的创新者，引领电磁兼容技术新趋势

发表于 10-16 14:25 •235次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大模型，正式宣告“Her时代

发表于 08-27 15:20 •392次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习模型的强大性能往往依赖于大量有标签的数据进行训练

发表于 07-09 10:50 •720次阅读

如何看待半导体行业未来的新趋势

如何看待半导体行业未来的新趋势

发表于 04-25 11:38 •739次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态

发表于 04-18 17:01 •597次阅读

AI机器人迎来多模态模型

配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息，还要快速完成理解、决策、行动等一系列动作，因此对于算力的需求是巨量的。

发表于 04-12 10:39 •279次阅读

新趋势下，国产数据库或“春山可望”

数据库发展出现新趋势

发表于 01-30 12:12 •308次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •417次阅读

什么是多模态？多模态的难题是什么？

单模态大模型，通常大于100M～1B参数。具有较强的通用性，比如对图片中任意物体进行分割，或者生成任意内容的图片或声音。极大降低了场景的定制成本。

发表于 01-17 10:03 •4629次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频对齐以及语音检测。

发表于 12-28 11:45 •524次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •1271次阅读

语音识别技术最新进展：视听融合的多模态交互成为主要演进方向

多种模态（声学、语言模型、视觉特征等）进行联合建模，基于深度学习的多模态语音识别取得了新进展。多模

发表于 12-28 09:06 •3889次阅读