0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浅析ECCV18 DeepMind论文《Look, Listen and Learn》

张康康 2018-10-25 19:44 次阅读

作者 | Video++极链科技AI实验室张奕

整理 | 包包

背景

声音和图像是视频中最重要的两类基础信息,能反映视频中出现的主要内容。以往大量的视频内容分析研究都是基于声音和视觉特征来展开,其中很多研究工作会基于声音视觉多模态特征来进行语义建模。人们清楚地意识到声音和视觉特征直接存在着某种对应关系,因为当某种语义内容在视频中出现时,其相应的视觉图像和声音必然相伴出现,那么该如何利用这个对应关系来帮助我们进行视频语义内容分析与识别呢?

让我们先来看看当前机器学习与视频分析研究的痛点。机器学习按照对样本的标注要求不同可分为有监督和无监督两大类。随着深度学习的兴起,基于大量标注样本训练的深度网络模型在各领域中都取得了远超其它模型的准确率,确立了主流地位。但是这一方法最大的缺点是需要大量的标注样本,样本标注是一项很高成本的工作,需要耗费大量的人力资源,使人工智能成为真正基于“人工”的智能。在视频内容分析领域,为了达到识别视频内容的目的,也需要对视频进行大量的样本标注,这些标注包括目标、语义在时间空间上出现的位置、类别标签等,非常繁琐。如何能够减少对标注数据的依赖一直是一个机器学习的重要研究方向。

回到先前的问题,既然视频中的视觉和声音之间存在着对应关系,那么是否可以用这个对应关系来解决数据的标注问题,从而减少对人工标注的依赖呢?DeepMind大胆的提出了这一设想,通过视觉和声音的对应实现它们之间的互标注,不需要人工标注,就可以获得大量的带有自标注对应关系的声音视觉样本,提供给深度网络进行训练,从而实现视频中相关事件的检测识别。

方法


1540455999859b7947c71c8



数据

以上网络通过如下的方式产生正负样本对:负样本对来自于两段不同视频中随机选取的图像帧和声音片段,正样本对来自于声音片段和同一视频中对应该声音时间中点处的图像帧。训练数据集规模为40万段时长为10秒的视频,来自于Flickr-SoundNet和Kinetics-Sounds数据集。

实验结果

15404559963591c914eb0d8


154045599801135808fe0c8


作者还给出了训练声音视觉对应网络中得到的视觉子网络和声音子网络模型在视觉分类和声音分类任务中的性能,并与现有算法进行了比较。在声音分类benchmark数据集ESC-50和DCASE上本文的声音子网络取得了最好的结果,如表2所示。图像分类在benchmark数据集ImageNet上本文的视觉子网络取得了与当前最好的自监督学习算法相同的结果,如表3所示。

1540455996666443d1b9635


1540455997609c368b67ebf


通过以上网络和学习方式,究竟学到了什么内容?作者给出了直观的实例,选取视觉子网络pool4层响应最高的各类的5个样本(图3),并将对应的conv_2层响应热力图显示出来(图4),可见网络能够在视觉概念相关区域获得高响应,表明学习是有效的,并且该网络对声音源具有定位能力。



结论与讨论

本文利用声音视觉对应关系提出了一种深度网络,可免除对样本的标注,通过自监督学习,实现视频内容的检测分类。实验表明其在声音分类上的效果超越其他算法,在图像分类上的效果与以往最佳自监督算法持平。

本文算法在声音分类上的优异表现表明,视觉特征在声音特征的相关性使其在描述声音特征中起到了帮助作用。同时本文算法在图像分类上的表现也表明声音特征对图像特征描述也存在有效的帮助。目前视觉特征仅采用了声音片段对应的图像序列中的一个采样帧作为输入,尚无法完全反映声音和图像之间在时间上的对应关系,如能利用声音对应的整个图像序列作为视觉输入,将可能进一步利用声音和视觉之间的并发性,提升模型效果。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8344

    浏览量

    132288
  • 视频分析
    +关注

    关注

    0

    文章

    27

    浏览量

    10824
收藏 人收藏

    评论

    相关推荐

    Nullmax视觉感知能力再获国际顶级学术会议认可

    日前,欧洲计算机视觉国际会议 ECCV 2024公布论文录用结果,Nullmax感知团队的目标检测论文《SimPB: A Single Model for 2D and 3D Object Detection from Mult
    的头像 发表于 09-02 14:07 353次阅读

    地平线科研论文入选国际计算机视觉顶会ECCV 2024

    近日,地平线两篇论文入选国际计算机视觉顶会ECCV 2024,自动驾驶算法技术再有新突破。
    的头像 发表于 07-27 11:10 831次阅读
    地平线科研<b class='flag-5'>论文</b>入选国际计算机视觉顶会<b class='flag-5'>ECCV</b> 2024

    ERAY (FlexRay) 模块卡在INTEGRATION_LISTEN状态,为什么?

    的配置(我将附上 ErayDemo 和我的项目)。 通过调试,我得出结论:两个模块都卡在 INTEGRATION_LISTEN 状态。 电气连接图片:
    发表于 07-24 06:54

    谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议

    谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。
    的头像 发表于 07-16 18:29 540次阅读
    谷歌<b class='flag-5'>DeepMind</b>被曝抄袭开源成果,<b class='flag-5'>论文</b>还中了顶流会议

    谷歌DeepMind发布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日发布了人工智能模型AlphaFold的最新版本——AlphaFold 3,这一革命性的工具将在药物发现和疾病治疗领域发挥巨大作用。
    的头像 发表于 05-10 11:26 533次阅读

    谷歌将在Pixel Tablet平板上引入&quot;Look and Sign&quot;功能,提升用户体验

    现阶段,谷歌已在Nest Hub Max采用“Look and Talk”(看并说话)功能,用户可在特定区域直视该设备,无需唤醒词“OK Google”,便能实现语音指令。
    的头像 发表于 04-18 15:36 311次阅读

    谷歌DeepMind推新AI模型Genie,能生成2D游戏平台

    据报道,谷歌公司的DeepMind团队近期发布了AI模型Genie,此模型拥有多达110亿个参数,能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。
    的头像 发表于 02-27 14:53 703次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌DeepMind的首席开发人员,自去年9月份以来,他是第4位离开谷歌Gemini
    的头像 发表于 02-04 10:02 714次阅读

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 437次阅读

    再登Nature!DeepMind大模型突破60年数学难题,解法超出人类已有认知

    (Function)一词的简写。 利用大模型解决长期存在的科学难题,产生 以前不存在 的 可验证 且 有价值* 的新信息。 在Nature论文配套的新闻解读中,DeepMind负责人称“我们使用大模型
    的头像 发表于 12-24 21:40 495次阅读
    再登Nature!<b class='flag-5'>DeepMind</b>大模型突破60年数学难题,解法超出人类已有认知

    DeepMind论文登上Nature:困扰数学家几十年的难题,大模型发现全新解

    的知识吗? 由于 LLM 已被证明存在「幻觉」问题,即生成与事实不符的信息,因此利用 LLM 来做可验证的正确发现是一项挑战。 现在,来自 Google DeepMind 的研究团队提出了一种为数学和计算机科学问题搜索解决方案的新方法 ——FunSearch。FunSearch 的
    的头像 发表于 12-18 15:55 272次阅读

    保护器件过电应力失效机理和失效现象浅析

    保护器件过电应力失效机理和失效现象浅析
    的头像 发表于 12-14 17:06 714次阅读
    保护器件过电应力失效机理和失效现象<b class='flag-5'>浅析</b>

    陶瓷电容温度系数浅析:1类和2类电容有何差异?如何标识?

    陶瓷电容温度系数浅析:1类和2类电容有何差异?如何标识?
    的头像 发表于 12-08 17:30 1124次阅读
    陶瓷电容温度系数<b class='flag-5'>浅析</b>:1类和2类电容有何差异?如何标识?

    电子电路板中的稳态与瞬态热传递浅析

    电子电路板中的稳态与瞬态热传递浅析
    的头像 发表于 12-05 17:20 1429次阅读
    电子电路板中的稳态与瞬态热传递<b class='flag-5'>浅析</b>

    五种宽带接入主要技术浅析

    电子发烧友网站提供《五种宽带接入主要技术浅析.pdf》资料免费下载
    发表于 11-10 14:48 0次下载
    五种宽带接入主要技术<b class='flag-5'>浅析</b>