关于多模态机器学习综述论文-电子发烧友网

摘要：”当研究问题或数据集包括多个这样的模态时，其特征在于多模态。

【导读】人工智能领域最顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影响因子为 9.455)，2019年1月最新一期发表了关于多模态机器学习综述论文。我们周围的世界涉及多种形式 - 我们看到物体，听到声音，感觉质地，闻到异味等等。一般而言，模态指的是事物发生或经历的方式。大多数人将形态与感觉方式联系起来，这些感觉方式代表了我们主要的交流和感觉渠道，例如视觉或触觉。

因此，当研究问题或数据集包括多个这样的模态时，其特征在于多模态。本文主要关注但不仅仅关注三种形式：自然语言既可以是书面的，也可以是口头的; 视觉信号，通常用图像或视频表示; 和声音信号，编码声音和口头信息，如韵律和声音表达。

我们对世界的体验是多模式的 - 我们看到物体，听到声音，感觉质地，闻到异味和味道。情态是指某种事物发生或经历的方式，并且当研究问题包括多种这样的形式时，研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展，它需要能够将这种多模态信号一起解释。多模式机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域，具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用，而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类，并确定了多模式机器学习所面临的更广泛的挑战，即：表示，翻译，对齐，融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况，并确定未来研究的方向。

论文地址：

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806

模态特征表示

多模态的表示方法有两类：

联合表示将不同模态的特征映射到同一个空间，代表方法有神经网络的方法、图模型方法与序列模型方法。

协调方法特征仍在原空间，但是通过相似度或者结构特征协调。

多模态特征翻译

多模态特征翻译分为基于样本的和生成式的：

基于样本的方法从特征字典中找出最佳翻译。基于样本的方法分为基于检索式的和合并的方法。

生成式的方法则是通过样本，训练一个翻译模型，并使用翻译模型完成对特征的转换。生成式的方法有基于语法的、encoder-decoder模型和连续模型。

多模态特征对齐

多模态特征对齐是找到同一个实例的不同之间模态特征之间的关系。

显式对齐方法包括监督模型和无监督模型。无监督模型如CCA和DTW（Dynamic time warping）等。

隐式对齐的方法包括图模型和神经网络

多模态特征融合

多模态特征融合是指将从不同模态的特征集成在一起，共同完成一个任务，如分类。

无模型融合的方法被分为早期模型（基于特征）、晚期模型（基于决策）和混合模型

有模型融合的方法有核方法、图模型方法、神经网络模型方法等。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47258

浏览量
238410
机器学习

机器学习

+关注

关注
66

文章
8416

浏览量
132616
自然语言

自然语言

+关注

关注
1

文章
288

浏览量
13348

原文标题：人工智能顶刊TPAMI2019最新《多模态机器学习综述》

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •175次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建多

发表于 12-03 15:18 •127次阅读

一文理解多模态大语言模型——上

/understanding-multimodal-llms 在过去几个月中， OpenVINO™ 架构师 Yury阅读了众多有关多模态大语言模型的论文和博客，在此基础上，推荐了一篇解读多

发表于 12-02 18:29 •319次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •430次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大模型，正式宣告“Her时代

发表于 08-27 15:20 •392次阅读

清华大学:软体机器人柔性传感技术最新研究进展

传感领域发表卷首（frontispiece）综述论文。这项工作全面总结了用于柔性传感器的智能材料以及先进制造方法，详尽归纳了不同类型的传感模式。

发表于 08-13 16:28 •1106次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习模型的强大性能往往依赖于大量有标签的数据进行训练

发表于 07-09 10:50 •720次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

李未可科技多模态 AI 大模型正式发布，积极推进 AI 在终端的场景应用 4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态

发表于 04-18 17:01 •597次阅读

AI机器人迎来多模态模型

配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息，还要快速完成理解、决策、行动等一系列动作，因此对于算力的需求是巨量的。

发表于 04-12 10:39 •279次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多模态模

发表于 03-19 11:19 •894次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •417次阅读

什么是多模态？多模态的难题是什么？

单模态大模型，通常大于100M～1B参数。具有较强的通用性，比如对图片中任意物体进行分割，或者生成任意内容的图片或声音。极大降低了场景的定制成本。

发表于 01-17 10:03 •4629次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频对齐以及语音检测。

发表于 12-28 11:45 •524次阅读

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •1271次阅读

语音识别技术最新进展：视听融合的多模态交互成为主要演进方向

多种模态（声学、语言模型、视觉特征等）进行联合建模，基于深度学习的多模态语音识别取得了新进展。多模

发表于 12-28 09:06 •3889次阅读