0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究者提出了一项新的视听分割任务

电子工程师 来源:量子位 作者:量子位 2022-08-08 16:45 次阅读

听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。

能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢?

来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)。

视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。

相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench。

465bf528-16c2-11ed-ba43-dac502259ad0.png

Audio-Visual Segmentation

论文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

项目主页:

https://opennlplab.github.io/AVSBench/

新任务、新的数据集,搞算法的又有新坑可以卷了。

467d6fa0-16c2-11ed-ba43-dac502259ad0.png

最新放榜结果,该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。

视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。

这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。

但无论哪一种,离精细化的视听场景理解都差点意思。

469cc1de-16c2-11ed-ba43-dac502259ad0.png

△AVS 任务与 SSL 任务的比较

视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌——

即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢?

鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置:

1、单声源(Single-source)下的视听分割
2、多声源(Multi-sources)下的视听分割

数据集中的每个视频时长5秒。

单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。

46b6a4be-16c2-11ed-ba43-dac502259ad0.png

△AVSBench单源子集的数据分布

多声源子集则包含了424个视频。

结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。

研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。

对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。

46c54e24-16c2-11ed-ba43-dac502259ad0.png

△对单声源子集和多声源子集进行不同人工标注

这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。

吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。

46e44a22-16c2-11ed-ba43-dac502259ad0.png

△视听分割框架图

这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。

另外,还有两个网络优化目标。

一是计算预测图和真实标签的损失。

而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。

部分实验结果

光说不练假把式,研究人员进行了广泛实验。

首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。

实验结果表明,视听分割在多个指标下取得了最佳结果。

47032ec4-16c2-11ed-ba43-dac502259ad0.png

△和来自相关任务方法进行视听分割的对比结果

其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。

4712b006-16c2-11ed-ba43-dac502259ad0.png

△引入音频的TPAVI模块,可以更好地处理物体的形状细节(左图),并且有助于分割出正确的发声物(右图)

对于新任务的视听匹配损失函数,实验还验证了其有效性。

47260c28-16c2-11ed-ba43-dac502259ad0.png

△视听匹配损失函数的有效性

One More Thing

文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型。

研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBench-v2。

一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    161

    文章

    4345

    浏览量

    120120
  • AI
    AI
    +关注

    关注

    87

    文章

    30191

    浏览量

    268444
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24648

原文标题:ECCV 2022 | 视觉新任务!AVS:视听分割

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    苹果新获一项投影仪专利

     10月17日资讯,科技博客Patently Apple于10月15日发布报道,指出苹果公司新获一项投影仪专利,此专利允许用户无需佩戴头显设备,即可在桌子、墙壁等平面上展示混合增强现实(AR)和虚拟现实(VR)内容。
    的头像 发表于 10-17 16:01 517次阅读

    智行者——视听障碍出行辅助AI小车设计

    摘要据统计,我国视障人数达1731万人,听力残疾患者2780万人。视听障碍对出行和交流需求迫切,但现有设施和辅具局限性大,使他们面临出行难题。因此,我们开发了款安全、精准、语音与手部交互的导航避
    的头像 发表于 07-19 08:11 551次阅读
    智行者——<b class='flag-5'>视听</b>障碍<b class='flag-5'>者</b>出行辅助AI小车设计

    图像语义分割的实用性是什么

    图像语义分割种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 、图像语义
    的头像 发表于 07-17 09:56 358次阅读

    机器学习中的数据分割方法

    在机器学习中,数据分割一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分割的方法,包括常见的
    的头像 发表于 07-10 16:10 1341次阅读

    图像分割与语义分割中的CNN模型综述

    图像分割与语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的种核心模型,在图像
    的头像 发表于 07-09 11:51 688次阅读

    如何使用freeRTOS在两个任务之间传输任务数据?

    的问题是不知道如何将传感器的数据从任务传输到另任务。 或许这根本就不是个好主意,应该在一项任务
    发表于 07-03 07:55

    如何在PSOC创建项目中确认看门狗定时器已启用?

    您好,我是 PSOC BLE 部件的新手,只有一项任务,即确认看门狗定时器是否正确启用并按需要工作。我是 PSOC Creator 的新用户。如有任何帮助,将不胜感激。如何在 PSOC 创建项目中确认看门狗定时器已启用?
    发表于 07-02 07:10

    谷歌提出大规模ICL方法

    谷歌DeepMind团队近日取得了一项突破性的研究成果。他们提出了强化和无监督两种新型的ICL(In-Context Learning)学习方法,这创新技术能够在多个领域显著提升模型
    的头像 发表于 05-14 14:17 325次阅读

    NVIDIA即将推出一项新的生成式AI专业认证

    NVIDIA 即将推出一项新的生成式 AI 专业认证,助力开发在这重要领域证明自身技术实力。
    的头像 发表于 03-14 09:43 517次阅读

    长电科技推出了一项革命性的高精度热阻测试与仿真模拟验证技术

    在芯片封装技术日益迈向高密度、高性能的今天,长电科技引领创新,推出了一项革命性的高精度热阻测试与仿真模拟验证技术。
    的头像 发表于 03-08 13:33 473次阅读

    可片上探测和预处理的仿生视听光电探测器

    perception and preprocessing)的研究论文。该研究提出了仿生“视听”光电探测器,通过模拟人类感知系统中神经突触间的“兴奋”和“抑制”行为,在传
    的头像 发表于 03-06 06:28 365次阅读
    可片上探测和预处理的仿生<b class='flag-5'>视听</b>光电探测器

    机器视觉缺陷检测是工业自动化领域的一项关键技术

    机器视觉缺陷检测是工业自动化领域的一项关键技术,
    的头像 发表于 02-22 13:59 496次阅读
    机器视觉缺陷检测是工业自动化领域的<b class='flag-5'>一项</b>关键技术

    2023年度中国半导体十大研究进展出炉,一项传感器技术入榜(附全名单)

    来源:《半导体学报》   2月5日,《半导体学报》发布2023年度“中国半导体十大研究进展”名单,其中,一项传感技术入选。   由中国科学院上海技术物理研究所红外科学与技术重点实验室胡伟达、苗金水
    的头像 发表于 02-20 08:37 693次阅读
    2023年度中国半导体十大<b class='flag-5'>研究</b>进展出炉,<b class='flag-5'>一项</b>传感器技术入榜(附全名单)

    SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯
    的头像 发表于 12-12 11:23 759次阅读
    三<b class='flag-5'>项</b>SOTA!MasQCLIP:开放词汇通用图像<b class='flag-5'>分割</b>新网络

    为什么汽车雨量和光传感器是一项安全功能?

    为什么汽车雨量和光传感器是一项安全功能?
    的头像 发表于 12-06 16:17 541次阅读
    为什么汽车雨量和光传感器是<b class='flag-5'>一项</b>安全功能?