0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一项新的视听分割任务

OpenCV学堂 来源:量子位 作者:量子位 2022-08-08 10:23 次阅读

听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。

能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢?

来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)。

视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。

相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench。

新任务、新的数据集,搞算法的又有新坑可以卷了。

最新放榜结果,该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。

视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。

这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。

但无论哪一种,离精细化的视听场景理解都差点意思。

9a6bb8d6-14bc-11ed-ba43-dac502259ad0.png

△ AVS 任务与 SSL 任务的比较

视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌——

即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢?

鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置:

1、单声源(Single-source)下的视听分割 2、多声源(Multi-sources)下的视听分割

数据集中的每个视频时长5秒。

单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。

9a9b0956-14bc-11ed-ba43-dac502259ad0.png

△AVSBench单源子集的数据分布

多声源子集则包含了424个视频。

结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。

研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。

对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。

9aaee368-14bc-11ed-ba43-dac502259ad0.png

△对单声源子集和多声源子集进行不同人工标注

这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。

吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。

9ce74d64-14bc-11ed-ba43-dac502259ad0.png

△视听分割框架图

这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。

另外,还有两个网络优化目标。

一是计算预测图和真实标签的损失。

而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。

部分实验结果

光说不练假把式,研究人员进行了广泛实验。

首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。

实验结果表明,视听分割在多个指标下取得了最佳结果。

9d05089a-14bc-11ed-ba43-dac502259ad0.png

△和来自相关任务方法进行视听分割的对比结果

其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。

9d1434aa-14bc-11ed-ba43-dac502259ad0.png

△引入音频的TPAVI模块,可以更好地处理物体的形状细节(左图),并且有助于分割出正确的发声物(右图)

对于新任务的视听匹配损失函数,实验还验证了其有效性。

9d24a2a4-14bc-11ed-ba43-dac502259ad0.png

△视听匹配损失函数的有效性

One More Thing

文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型。

研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBench-v2。

审核编辑:彭静

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3639

    浏览量

    134440
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268909
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24691

原文标题:听声辨物,这是AI视觉该干的???|ECCV 2022

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    下图中的与打开文件相连的枚举常量是自己一项一项编辑...

    下图中的与打开文件相连的枚举常量是自己一项一项编辑的还是自动就有的?
    发表于 03-17 21:39

    DropDown小工具不知道当前选择的是哪一项

    DropDown小工具的API就这么多,真不知道那个函数能返回当前选择的是哪一项,就算是返回选择的索引的函数也没有,都不知道当前选择的是哪一项,那这个DropDown小工具还有什么用,难道只能做出来当摆设,看了例程也没有用它选择的是哪
    发表于 03-09 23:06

    请教Ring控件删除最后一项

    请问:Ring控件,删除其下拉内容最后一项,显示不正常(如显示为:),怎样纠正?
    发表于 04-12 17:09

    关于电机驱动原理的动画,哪位大佬可以分享一项吗?

    关于电机驱动原理的动画,哪位大佬可以分享一项吗?
    发表于 10-13 06:17

    通过任务分割提高嵌入式系统的实时性

    分析长任务对嵌入式系统实时性的影响,在此基础上提出任务分割是提高嵌入式系统实时性的种有效途径; 总结长任务
    发表于 05-15 15:07 4次下载

    漆包线标准中的一项差距

    漆包线标准中的一项差距:我国漆包线标准是根据IEC标准制定的, 而IEC标准在国际上并不是最先进的标准。在这里只讨论IEC漆包线标准与先进标准相比的一项差距在西德的些公司
    发表于 06-12 20:55 13次下载

    聚焦语义分割任务,如何用卷积神经网络处理语义图像分割

    CNN架构图像语义分割 图像分割是根据图像内容对指定区域进行标记的计算机视觉任务,简言之就是「这张图片里有什么,其在图片中的位置是什么?」本文聚焦于语义分割
    发表于 09-17 15:21 565次阅读

    一项新的研究表明,免费上网应该成为一项基本人权

    一项新的研究表明,免费上网必须被视为一项人权,因为无法上网的人们(尤其是在发展中国家)缺乏有意义的方式来影响全球参与者塑造他们的日常生活。
    的头像 发表于 04-21 17:35 2992次阅读

    大华股份AI刷新了Cityscapes数据集中语义分割任务的全球最好成绩

    Task)的全球最好成绩,在语义分割任务上四指标均取得第,超越了其它流AI公司和顶尖的学术研究机构,彰显了大华在语义
    的头像 发表于 11-05 18:29 4215次阅读

    研究者提出了一项新的视听分割任务

    视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。
    的头像 发表于 08-08 16:45 789次阅读

    文读懂图像分割

    图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要环。
    的头像 发表于 02-28 09:55 1952次阅读

    没你想的那么难 | 文读懂图像分割

    来源:图灵Topia(ID:turingtopia)图像分割(ImageSegmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要环。近日,数据科学家
    的头像 发表于 05-16 09:21 944次阅读
    没你想的那么难 | <b class='flag-5'>一</b>文读懂图像<b class='flag-5'>分割</b>

    介绍种自动驾驶汽车中可行驶区域和车道分割的高效轻量级模型

    本文介绍了TwinLiteNet:种自动驾驶汽车中可行驶区域和车道分割的高效轻量级模型。语义分割是自动驾驶中理解周围环境的一项常见任务
    发表于 08-03 14:20 1268次阅读
    介绍<b class='flag-5'>一</b>种自动驾驶汽车中可行驶区域和车道<b class='flag-5'>分割</b>的高效轻量级模型

    什么是图像分割?图像分割的体系结构和方法

    图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要环。前端时间,数据科学家Derrick Mwiti在篇文章中,就什么是图像
    的头像 发表于 08-18 10:34 6270次阅读
    什么是图像<b class='flag-5'>分割</b>?图像<b class='flag-5'>分割</b>的体系结构和方法

    机器学习中的数据分割方法

    在机器学习中,数据分割一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分割的方法,包括常见的
    的头像 发表于 07-10 16:10 1725次阅读