关于深度学习用于多模态语义学习的简述-电子发烧友网

（文章来源：网络整理）

互联网用户所创造的“内容”正在迅猛增长，从不同渠道涌现的文本、图像和视频等不同类型的媒体数据以及用户信息更加紧密混合。它们正在以一种新的形式，更为形象综合地表达语义、主题和事件。针对当前媒体数据呈现出的特点进行深入研究已成为学术热点，多种类型媒体数据依赖共存，各种平台和应用的数据来源广泛，个体和群体参与数据产生的用户交互史无前例。

谷歌的前任研究主管皮特·诺文（Perter Norvig）博士曾在2010年《自然》杂志上发表文章《2020愿景》，指出今后10年，文本、图像、视频等数据以及用户交互信息和各种传感器信息将混合在一起，从搜索角度看，搜索引擎对检索结果进行的是内容综合而非数据罗列，这也将是谷歌今后面临的巨大挑战。我国也同样重视“跨媒体”研究，国家科技部于2011年11月启动了973计划项目“面向公共安全的跨媒体计算理论与方法”，对“跨媒体”的表达建模、语义学习、挖掘推理和搜索排序等核心问题开展了理论研究。目前，媒体计算需要重点解决的两个难点是消除“异构鸿沟”和“语义鸿沟。

传统的媒体计算研究方法主要从手工构建的底层特征出发，利用机器学习方法填补异构鸿沟和语义鸿沟。与传统方法不同深度学习是通过将无监督逐层预训练与有监督微调（fine-tuning）有机结合，实现端到端方式的特征学习。其基本动机是构建多层网络来学习隐含在数据内部的关系，从而使学习得到的特征具有更强的表达力和泛化能力。

在大规模数据上进行的实验表明：通过深度学习得到的特征表示在自然语言处理（词向量学习）、知识图谱构建、图像分类和语音识别等领域表现出良好的性能。例如谷歌研究组在2014年大规模视觉识别挑战赛中采用改进的卷积神经网络GoogLeNet，将图像识别准确率提升到93.3%。

通常，在媒体语义理解过程中可获取不同类型的媒体数据，如：新闻报道包含了文字和文字对应的图像，视频包含了视觉和听觉信息。不同类型的媒体数据从不同侧面反映了高层语义，因此多模态语义学习需要对不同模态的信息进行整合。1976年，麦格克（McGurk）等人验证了人类对外界信息的认知是基于不同感官信息而形成的整体性理解，任何感官信息的缺乏或不准确，都将导致大脑对外界信息的理解产生偏差，这个现象被称为“McGurk现象”。McGurk现象揭示了大脑在进行感知时，不同感官会被无意识地自动结合在一起对信息进行处理。

由于深度学习具有通过逐层抽象来形成良好特征的能力，因此可利用该方法来形成不同类型数据的联合特征表示。具体方法有深度典范相关分析（Deep Caconical Correlation Analysis，Deep CCA）、多模态深度学习以及多模态玻尔兹曼机等。这些方法的基本思路是通过不同的深层模型对不同类型数据进行逐层学习，将学习得到的结果进行合并，以得到多模态联合特征表示，最后要求多模态联合特征能有效重建原始不同类型数据或表达相关语义概念。为了得到更好的深层模型，一般在深层模型的最顶端设计反映不同类型数据相互耦合的损失函数来对模型进行优化反馈。

将深度学习应用于语义概念识别和理解时，有两种方法：（1）将深度学习得到的特征表示直接输入给判别分类模型（如支持向量机等）；（2）通过softmax函数或回归函数对输人数据、隐含层和输出层（语义标签）之间的概率分布进行建模，然后基于互信息熵最小或间隔距离最大等准则对模型进行优化。

有人的理论研究结果表明：在机器学习中，如果对模型本身的假设产生偏差，则会影响学习结果。因此，如何合理引入数据本身所具有的先验知识和结构线索，来构造和微调深层模型使之更好地处理多模态数据，是一个亟待解决的问题。因此，一些研究开始在生成式深层模型或区别式深层模型中引入数据本身所具有的先验结构，以提升特征学习的泛化能力和区别能力。有人在卷积神经网络输出端引入层次化概念树来促进关联语义所具有的共享特征的学习，有人通过非参贝叶斯假设来提高判别性语义特征学习的灵活度。
（责任编辑：fqj）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

互联网

互联网

+关注

关注
54

文章
11081

浏览量
102667
深度学习

深度学习

+关注

关注
73

文章
5485

浏览量
120937

NPU在深度学习中的应用

随着人工智能技术的飞速发展，深度学习作为其核心驱动力之一，已经在众多领域展现出了巨大的潜力和价值。NPU（Neural Processing Unit，神经网络处理单元）是专门为深度学习

发表于 11-14 15:17 •193次阅读

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二、自然语言处理自然语言处理（NLP）是深度

发表于 10-27 11:13 •311次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度

发表于 10-23 15:25 •344次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •277次阅读

深度学习中的时间序列分类方法

时间序列分类（Time Series Classification, TSC）是机器学习和深度学习领域的重要任务之一，广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随

发表于 07-09 15:54 •682次阅读

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习模型

发表于 07-09 10:50 •453次阅读

深度学习与nlp的区别在哪

深度学习和自然语言处理（NLP）是计算机科学领域中两个非常重要的研究方向。它们之间既有联系，也有区别。本文将介绍深度学习与NLP的区别。深度

发表于 07-05 09:47 •784次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器学习的范畴，但

发表于 07-01 11:40 •1151次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深度学习技术，使得

发表于 04-23 17:18 •1233次阅读

三星正考虑为Bixby添加生成式AI功能

Choi强调：“鉴于新型生成式AI与大语义学习（LLM）技术的出现，我们有必要去重新定位Bixby搭载这类科技以实现智能升级。

发表于 04-01 15:01 •574次阅读

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成功。深度

发表于 03-09 08:26 •587次阅读

什么是深度学习？机器学习和深度学习的主要差异

2016年AlphaGo 击败韩国围棋冠军李世石，在媒体报道中，曾多次提及“深度学习”这个概念。

发表于 01-15 10:31 •988次阅读

目前主流的深度学习算法模型和应用案例

深度学习在科学计算中获得了广泛的普及，其算法被广泛用于解决复杂问题的行业。所有深度学习算法都使用不同类型的神经网络来执行特定任务。

发表于 01-03 10:28 •1713次阅读

SuperPoint语义 SLAM深度学习用于特征提取

相机只有旋转而无平移的时候，两视图的对极约束不成立，基础矩阵F为零矩阵，这时候需要使用单应矩阵H场景中的点都在同一个平面上，可以使用单应矩阵计算像点的匹配点。

发表于 12-10 10:52 •647次阅读

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

目前的 VL 预训练方法通常仅适用于视觉和语言模态，而现实世界中的应用场景往往包含更多的模态信息，如深度图、热图像等。如何整合和分析不同模态

发表于 11-23 15:46 •660次阅读