0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于多模态机器学习综述论文

mK5P_AItists 来源:lq 2019-01-21 13:38 次阅读

摘要:”当研究问题或数据集包括多个这样的模态时,其特征在于多模态。

【导读】人工智能领域最顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEETPAMI,影响因子为 9.455),2019年1月最新一期发表了关于多模态机器学习综述论文。我们周围的世界涉及多种形式 - 我们看到物体,听到声音,感觉质地,闻到异味等等。 一般而言,模态指的是事物发生或经历的方式。 大多数人将形态与感觉方式联系起来,这些感觉方式代表了我们主要的交流和感觉渠道,例如视觉或触觉。



因此,当研究问题或数据集包括多个这样的模态时,其特征在于多模态。 本文主要关注但不仅仅关注三种形式:自然语言既可以是书面的,也可以是口头的; 视觉信号,通常用图像或视频表示; 和声音信号,编码声音和口头信息,如韵律和声音表达。

我们对世界的体验是多模式的 - 我们看到物体,听到声音,感觉质地,闻到异味和味道。情态是指某种事物发生或经历的方式,并且当研究问题包括多种这样的形式时,研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展,它需要能够将这种多模态信号一起解释。多模式机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域,具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用,而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类,并确定了多模式机器学习所面临的更广泛的挑战,即:表示,翻译,对齐,融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况,并确定未来研究的方向。

论文地址:

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806

模态特征表示

多模态的表示方法有两类:

联合表示将不同模态的特征映射到同一个空间,代表方法有神经网络的方法、图模型方法与序列模型方法。

协调方法特征仍在原空间,但是通过相似度或者结构特征协调。

多模态特征翻译

多模态特征翻译分为基于样本的和生成式的:

基于样本的方法从特征字典中找出最佳翻译。基于样本的方法分为基于检索式的和合并的方法。

生成式的方法则是通过样本,训练一个翻译模型,并使用翻译模型完成对特征的转换。生成式的方法有基于语法的、encoder-decoder模型和连续模型。

多模态特征对齐

多模态特征对齐是找到同一个实例的不同之间模态特征之间的关系。

显式对齐方法包括监督模型和无监督模型。无监督模型如CCA和DTW(Dynamic time warping)等。

隐式对齐的方法包括图模型和神经网络

多模态特征融合

多模态特征融合是指将从不同模态的特征集成在一起,共同完成一个任务,如分类。

无模型融合的方法被分为早期模型(基于特征)、晚期模型(基于决策)和混合模型

有模型融合的方法有核方法、图模型方法、神经网络模型方法等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47258

    浏览量

    238410
  • 机器学习
    +关注

    关注

    66

    文章

    8416

    浏览量

    132616
  • 自然语言
    +关注

    关注

    1

    文章

    288

    浏览量

    13348

原文标题:人工智能顶刊TPAMI2019最新《多模态机器学习综述》

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    商汤日日新模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态大模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 175次阅读

    一文理解模态大语言模型——下

    /understanding-multimodal-llms   《一文理解模态大语言模型 - 上》介绍了什么是模态大语言模型,以及构建
    的头像 发表于 12-03 15:18 127次阅读
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型——下

    一文理解模态大语言模型——上

    /understanding-multimodal-llms 在过去几个月中, OpenVINO™ 架构师 Yury阅读了众多有关模态大语言模型的论文和博客,在此基础上,推荐了一篇解读
    的头像 发表于 12-02 18:29 319次阅读
    一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型——上

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 430次阅读

    云知声推出山海模态大模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态大模型,正式宣告“Her时代
    的头像 发表于 08-27 15:20 392次阅读

    清华大学:软体机器人柔性传感技术最新研究进展

    传感领域发表卷首(frontispiece)综述论文。这项工作全面总结了用于柔性传感器的智能材料以及先进制造方法,详尽归纳了不同类型的传感模式。
    的头像 发表于 08-13 16:28 1106次阅读
    清华大学:软体<b class='flag-5'>机器</b>人柔性传感技术最新研究进展

    深度学习中的无监督学习方法综述

    深度学习作为机器学习领域的一个重要分支,近年来在多个领域取得了显著的成果,特别是在图像识别、语音识别、自然语言处理等领域。然而,深度学习模型的强大性能往往依赖于大量有标签的数据进行训练
    的头像 发表于 07-09 10:50 720次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    李未可科技模态 AI 大模型正式发布,积极推进 AI 在终端的场景应用   4月18日,2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI模态
    发表于 04-18 17:01 597次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型

    AI机器人迎来模态模型

    配备 GR00T 模型的机器人由于需要“吸收消化”外界的模态信息,还要快速完成理解、决策、行动等一系列动作,因此对于算力的需求是巨量的。
    发表于 04-12 10:39 279次阅读

    苹果发布300亿参数MM1模态大模型

    近日,科技巨头苹果公司在一篇由多位专家共同撰写的论文中,正式公布了其最新的模态大模型研究成果——MM1。这款具有高达300亿参数的模态
    的头像 发表于 03-19 11:19 894次阅读

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 417次阅读
    <b class='flag-5'>机器</b>人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b>语言视觉大模型

    什么是模态模态的难题是什么?

    模态大模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。
    的头像 发表于 01-17 10:03 4629次阅读
    什么是<b class='flag-5'>多</b><b class='flag-5'>模态</b>?<b class='flag-5'>多</b><b class='flag-5'>模态</b>的难题是什么?

    自动驾驶和模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频对齐以及语音检测。
    发表于 12-28 11:45 524次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的发展历程

    从Google模态大模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini模态大模型,展示了不凡的对话能力和模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 1271次阅读
    从Google<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型看后续大模型应该具备哪些能力

    语音识别技术最新进展:视听融合的模态交互成为主要演进方向

    多种模态(声学、语言模型、视觉特征等)进行联合建模,基于深度学习模态语音识别取得了新进展。  
    的头像 发表于 12-28 09:06 3889次阅读
    语音识别技术最新进展:视听融合的<b class='flag-5'>多</b><b class='flag-5'>模态</b>交互成为主要演进方向