0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代下,普通科研人怎么办?

3D视觉工坊 来源:计算机视觉工坊 2023-05-24 16:00 次阅读

众所周知,随着ChatGPT的爆火,AI全面进入大模型时代,NLP、CV大有统一之势,回顾发布的各种大模型,Google BARD,openAI的GPT,Meta的SAM,百度的文心一言等等,这些基本都是有实力有技术的大公司引领着来研究的,但是作为一名普通的高校科研工作者,我们大多数基本上是没有这么多资源算力去开发这样的大模型的,但是大模型在各个方向效果精度几乎是碾压,导致很多领域方向就消失了,很多研究生也是很焦虑,可能在申的论文以及毕业答辩时肯定会comment你的性能差距大模型这么多,还有研究的必要吗?

所以,大模型时代下,作为一名普普通通,没有很多资源算力的科研人如何继续研究呢?

最近在arXiv上刷到一篇文章,也许能提供一些思路。

论文名称:

AV-SAM: Segment Anything Model Meets Audio-VisualLocalization and Segmentation

论文地址:

https://arxiv.org/abs/2305.01836

ae217f76-fa05-11ed-90ce-dac502259ad0.png

主要内容:

首先,Segment Anything Model(SAM)大模型是Meta提出的一种CV大模型,在1100万张图像中的10亿个masks上进行训练,并且在各种分割任务上具有很强的零样本性能,它在打破分割边界方面取得了重大进展,极大地促进了计算机视觉基础模型的发展,这个视觉基础模型由三个主要组件组成:图像编码器、提示编码器和掩码解码器。

ae271e36-fa05-11ed-90ce-dac502259ad0.png

ae2f286a-fa05-11ed-90ce-dac502259ad0.png

SAM的项目地址:https://github.com/facebookresearch/segment-anything

我们普通科研人如果想重新设计训练这样一个大模型显然不现实,那么这篇论文的作者另辟蹊径,虽然大模型的泛化性很好,在很多任务上做的不错,但是不可能面面俱到,往往是大而不精的,这篇论文就利用已经预训练好的SAM大模型去做更具体的下游任务——视听定位和分割。

视听定位和分割:

视听定位和分割是以热图或掩模的方式预测视频中单个声源的位置。

所以,这篇arXiv的论文提出了一个简单而有效的基于SAM大模型的视听定位和分割框架,即AV-SAM,它可以生成与音频相对应的发声对象掩码。具体而言,利用SAM中预先训练的图像编码器的视觉特征,把它和音频特征逐像素视听融合来聚合跨模态表示,然后将聚合的跨模态特征输入到提示编码器和掩码解码器以生成最终的视听分割掩码。

方向主要包括:3D视觉领域各细分方向,比如相机标定|三维点云|三维重建|视觉/激光SLAM|感知|控制规划|模型部署|3D目标检测|TOF|多传感器融合|AR|VR|编程基础等。

Methods

ae3ad5c0-fa05-11ed-90ce-dac502259ad0.png

给定图像和音频,目标是预测图像上声音对象的像素掩码。主要由两个模块组成,像素级视听融合和视听掩码解码器。

让表示听觉和视觉数据对,T、F分别表示音频频谱图的时间和频率维度。

首先使用双流编码器和投影头对音频和视觉输入进行编码,分别表示为,音频编码器计算全局音频特征,视觉编码器为每s阶段生成多尺度空间级特征。

为了解决视听分割问题,引入了逐像素视听融合模块来对多尺度空间级视觉特征和全局音频表示进行编码,以更新输入到SAM的掩码解码器。在跨模态融合之后,第s阶段的视听特征被更新为:

其中,表示全局音频表示ai的复制版本,该复制版本在第s阶段重复次。这里表示1×1×1的卷积。通过这种特殊的视听融合,推动学习到的视觉标记嵌入与全局音频特征有区别地对齐。

利用逐像素视听融合的优势,使用多尺度特征图的最后阶段更新SAM中预训练图像编码器的原始视觉特征。然后这些更新的多级特征图被传递到SAM中的掩码解码器和提示编码器,以生成最终的输出掩码,以像素级标注Y作为监督,将预测和标签之间的二进制交叉熵(BCE)作为损失:

实验:

在VGG-Sound中使用144k对的子集进行训练,并在Flickr SoundNet测试集上用250对声音对象的视听对测试模型。

使用在ImageNet上预训练的ResNet50通过特征图的双线性插值来生成伪掩码。

对于输入视觉帧,分辨率调整为1024×1024。对于输入音频,使用长度为3s的对数频谱图,采样率为22050Hz。

使用轻量级的ResNet18作为音频编码器,并使用SAM发布的权重初始化视觉模型。该模型使用128的batch size,学习率为1e−4的Adam优化器进行了100个epochs的训练。

ae4386ac-fa05-11ed-90ce-dac502259ad0.png

与SAM相比,在两个基准的所有指标方面都取得了最佳结果。

这表明了逐像素视听融合对聚合跨模态输入的重要性。

ae4b7808-fa05-11ed-90ce-dac502259ad0.png

同时进行了消融研究以证明SAM冻结和微调预训练重量的效果。

在表2中冻结/微调每个模块(掩码解码器、提示编码器、图像编码器)参数

ae5482f4-fa05-11ed-90ce-dac502259ad0.png

可以观察到,对掩码解码器进行微调会增加视听分割的结果,表明视听掩码解码器在从聚合的跨模态特征生成准确掩码方面的优势。同时微调提示编码器也提高了视觉声源在所有指标方面的分割性能。

总结:

本篇是一篇基于大模型来做研究的文章,针对大模型在视听定位和分割上不够鲁棒准确的问题,设计模块去聚合跨模态表示,显著提高了在这一具体任务上的性能。这也许可以给我们普通科研工作者一些启发,如果我们不能重新研究设计训练大模型情况下,我们可以在有限的资源算力下用大模型做一些具体的下游任务,扩展大模型的应用点,用他们已经预训练好的模型权重去做更具体的任务,原始的大模型不可能面面俱到,其中很多点还是可以去做的。思考大模型如何在自己的研究方向上发挥它的价值,如何融合进自己的研究。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1131

    浏览量

    40678
  • 编码器
    +关注

    关注

    45

    文章

    3595

    浏览量

    134161
  • 模型
    +关注

    关注

    1

    文章

    3172

    浏览量

    48714

原文标题:大模型时代下,普通科研人怎么办?

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Altium Designer找不到元件怎么办

    请问一各位,我在Altium Designer里面绘制电路图时找不到marvell公司的88e1111芯片的元件,不知道该怎么办?网上到处都是比较全的元件库,下下来也没见怎么个全法,所以请教一各位有没有关于Marvell 公
    发表于 07-19 11:34

    模型转换失败怎么办

    模型转换失败怎么办
    发表于 09-18 08:41

    ADL5205官网上没有spice模型 ,不能仿真怎么办

    ADL5205官网上没有spice模型 ,不能仿真怎么办?有没有大神用这个做过单端输入的设计? 求教一
    发表于 11-17 08:32

    诺基亚n70白屏怎么办

    诺基亚n70白屏怎么办
    发表于 09-01 15:58 3541次阅读
    诺基亚n70白屏<b class='flag-5'>怎么办</b>

    主板坏了怎么办

    主板坏了怎么办? 大家用组装机的朋友,常遇到主板坏了,不懂的常不知如何处理,其实有些故障是很容易排除的,现在这个时代,将主板拿出去
    发表于 05-22 08:54 1.2w次阅读

    显示桌面没了怎么办

    显示桌面没了怎么办 我的windows xp的显示桌面的图标没有了怎么办。下载一个放到系统目
    发表于 01-18 19:00 3844次阅读

    笔记本风扇噪音很大怎么办

    笔记本风扇噪音很大怎么办 教,我的笔记本的风扇噪音很大,怎么办?  可以尝试一给风扇加一点“油”——钟表油!首先
    发表于 01-21 10:51 1889次阅读

    文件或目录损坏怎么办

    文件或目录损坏怎么办 我的D盘分区是NTFS格式的,但现在变成RAW。而且双击D盘就提示:无法访问D:/ 文件或目录损坏且无法读取。怎么办
    发表于 02-25 10:16 1099次阅读

    电池换新无法可依怎么办

    电池坏了怎么办?修。修不好怎么办?换。
    发表于 03-19 11:23 1391次阅读

    linux无法识别U盘怎么办

    linux无法识别U盘怎么办
    发表于 05-19 09:08 1.7w次阅读
    linux无法识别U盘<b class='flag-5'>怎么办</b>

    linuxtelnet不能使用怎么办

     linuxtelnet不能使用怎么办?yum安装方式处理
    发表于 05-26 09:34 5791次阅读
    linux<b class='flag-5'>下</b>telnet不能使用<b class='flag-5'>怎么办</b>

    键槽滚键了怎么办

    键槽滚键了怎么办
    发表于 03-07 16:37 7次下载

    电机过热怎么办

    电机过热怎么办?WAYON维安PPTC有方案
    的头像 发表于 11-01 15:08 686次阅读
    电机过热<b class='flag-5'>怎么办</b>?

    pcb钻孔偏孔了怎么办

    pcb钻孔偏孔了怎么办
    的头像 发表于 11-22 11:10 3327次阅读
    pcb钻孔偏孔了<b class='flag-5'>怎么办</b>?

    风机轴磨损怎么办

    电子发烧友网站提供《风机轴磨损怎么办.docx》资料免费下载
    发表于 01-07 11:04 0次下载