0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视频P图新SOTA:推理速度快近15倍

OpenCV学堂 来源:量子位 作者:量子位 2022-05-24 09:45 次阅读

众所周知:视频是可以P的。

这不,在CVPR 2022收录的论文中,就出现了这么一个P图神器,它可以分分钟给你上演各种人像消失大法,不留任何痕迹。

去水印、填补缺失更是不在话下,并且各种分辨率的视频都能hold住。

正如你所见,这个模型如此丝滑的表现让它在两个基准数据集上都实现了SOTA性能。

812b2f9a-daac-11ec-ba43-dac502259ad0.png

△与SOTA方法的对比

同时它的推理时间和计算复杂表现也很抢眼:

前者比此前的方法快了近15倍,可以在Titan XP GPU上以每帧0.12秒的速度处理432 × 240的视频;后者则是在所有比较的SOTA方法中实现了最低的FLOPs分数。

如此神器,什么来头?

改善光流法

目前很多视频修复算法利用的都是光流法(Optical flow)。

也就是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息

这个方法的缺点很明显:计算量大、耗时长,也就是效率低。

为此,研究人员设计了三个可训练模块,分别为流完成(flow completion)、特征传播(feature propagation)和内容幻想(content hallucination),提出了一个流引导(flow-guided)的端到端视频修复框架:

E2FGVI。

这三个模块与之前基于光流的方法的三个阶段相对应,不过可以进行联合优化,从而实现更高效的修复过程。

8179012a-daac-11ec-ba43-dac502259ad0.png

具体来说,对于流完成模块,该方法直接在mask viedo中一步完成操作,而不是像此前方法采用多个复杂的步骤。

对于特征传播模块,与此前的像素级传播相比,该方法中的流引导传播过程在特征空间中借助可变形卷积进行。

通过更多可学习的采样偏移和特征级操作,传播模块释放了此前不能准确进行流估计的压力。

对于内容幻想模块,研究人员则提出了一种时间焦点Transformer来有效地建模空间和时间维度上的长程依赖关系。

同时该模块还考虑了局部和非局部时间邻域,从而获得更具时间相关性的修复结果。

81a552fc-daac-11ec-ba43-dac502259ad0.png

作者:希望成为新基线

定量实验:

研究人员在数据集YouTube VOS和DAVIS上进行了定量实验,将他们的方法与之前的视频修复方法进行了比较。

如下表所示,E2FGVI在全部四个量化指标上都远远超过了这些SOTA算法,能够生成变形更少(PSNR和SSIM)、视觉上更合理(VFID)和时空一致性更佳(Ewarp)的修复视频,验证了该方法的优越性。

81ddb930-daac-11ec-ba43-dac502259ad0.png

此外,E2FGVI也具有最低的FLOPs值(计算复杂度),尽管训练是在432 × 240分辨率的视频上进行,它的HQ版本做到了支持任意分辨率。

82209444-daac-11ec-ba43-dac502259ad0.png

定性实验:

研究人员首先选择了三种最有代表性的方法,包括CAP、FGVC(基于光流法)和Fuseformer(入选ICCV 2021),进行对象移除(下图前三行)和缺失补全(下图后两行)的效果比较。

可以发现,前三种方法很难在遮挡区域恢复出合理的细节、擦除人物也会造成模糊,但E2FGVI可以生成相对真实的纹理和结构信息。

824b6d22-daac-11ec-ba43-dac502259ad0.png

此外,它们还选用了5种方法进行了用户研究,结果大部分人都对E2FGVI修复后的效果更满意。

综上,研究人员也表示,希望他们提出的方法可以成为视频修复领域新的强大基线。

作者介绍

82ac4304-daac-11ec-ba43-dac502259ad0.png

E2FGVI由南开大学和海思合作完成。

一作Li Zhen为南开大学博士生,共同一作Lu ChengZe也来自南开。

通讯作者为南开大学计算机学院教授程明明,主要研究方向是计算机视觉和图形学。

目前,E2FGVI的代码已经开源,作者也提供了Colab实现,未来还将在Hugging Face给出demo。

论文地址: https://arxiv.org/abs/2204.02663

GitHub主页: https://github.com/MCG-NKU/E2FGVI

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    45965
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24683

原文标题:CVPR 2022 | 视频P图新SOTA:推理速度快近15倍,任意分辨率均可上演人像消失大法

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌正式发布Gemini 2.0 性能提升

    2.0在关键基准测试中相比前代产品Gemini 1.5 Pro的性能提升了。该模型支持图像、视频和音频等多种输入与输出形式,例如可以实现文本与图像的混合生成以及自定义的多语言文本转语音(TTS)内容。 此外,Gemini
    的头像 发表于 12-12 14:22 231次阅读

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的推理做了优化,因此相比GPU这种通过计算平台,功耗更低、
    的头像 发表于 10-29 14:12 334次阅读
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的应用

    6G测试速度达938Gbps,比5G速度快5000

    智能手机网络连接速度的5000。典型的5G运行速度约为200Mbps,而在实际使用中,由于信号连接问题,其提供的速度往往远低于100Mbps。
    的头像 发表于 10-22 16:27 513次阅读

    内存储器的特点是速度快成本低容量小对吗

    内存储器,通常指的是计算机系统中的随机存取存储器(RAM),是计算机硬件的重要组成部分。它负责存储计算机运行时的数据和程序,以便处理器快速访问。内存储器的特点包括速度快、容量相对较小,但成本并不是
    的头像 发表于 10-14 10:05 575次阅读

    Anthropic 发布Claude 3.5 Sonnet模型运行速度是Claude 3 Opus的两

    Anthropic 发布Claude 3.5 Sonnet最新模型 新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型,同时其运行速度是Claude 3 Opus的两
    的头像 发表于 06-21 15:43 787次阅读
    Anthropic 发布Claude 3.5 Sonnet模型运行<b class='flag-5'>速度</b>是Claude 3 Opus的两<b class='flag-5'>倍</b>

    NB81是否支持OneNet SOTA功能?应该如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,应该如何激活SOTA
    发表于 06-04 06:14

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,为什么?

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,用示波器采的输入到MCU端的差分电压是一样的,难道是SOTA使能后影响了MCU芯片内部的等效阻抗吗,有专家
    发表于 05-17 08:13

    OpenAI全新GPT-4o能力炸场!速度快/成本低,能读懂人类情绪

    ”的意思。GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到
    的头像 发表于 05-15 00:15 7804次阅读

    众鑫创展----1080P光学变焦摄像头方案

    的编解码质量、极低的编码码率。支持H.265/H.264/JPEG等多种编码,高效编码压缩,操作相应速度快。产品主要应用:视频会议机、直播摄像头、差异化应用等众多场景。特点:●具备优异的图像处理能力、极高的编
    的头像 发表于 05-11 16:34 452次阅读
    众鑫创展----1080<b class='flag-5'>P</b>十<b class='flag-5'>倍</b>光学变焦摄像头方案

    STM32f103系列8位并口与硬件SPI驱动1.8TFT的屏幕,哪个速度快

    有没前辈做过相关的项目,STM32f103系列 8位并口与硬件SPI 驱动1.8TFT的屏幕,哪个速度快。或者有8位并口的操作资料可以提供参考一下吗{:1:},不懂STM32如何发送8位并口数据,我现在的数据接口是PC2-PC9
    发表于 04-17 07:31

    flash激光雷达组成及优势

    Flash激光雷达具有无扫描装置、成像速度快、激光功率有限、检测距离、抗干扰能力差等优点。
    的头像 发表于 03-28 15:44 1148次阅读
    flash激光雷达组成及优势

    指纹挂锁方案——采用ACH512或ACM32FP4指纹芯片和88*112传感器,指纹识别速度快,BOM成本低

    方案概述指纹挂锁方案采用ACH512或ACM32FP4指纹芯片和88*112传感器,指纹识别速度快,BOM成本低,非常适合挂锁、内门锁、箱包锁、箱柜锁等场景。方案特点• 主控+算法单芯片
    发表于 03-12 11:46

    Anthropic发布Claude 3,单词处理能力是ChatGPT50

    人工智能领域的初创公司Anthropic近日宣布推出其最新型的聊天机器人——Claude 3。据公司透露,Claude 3的单词处理能力是知名聊天机器人ChatGPT的50,单次可处理约15万个单词,这一突破性的进展在人工智
    的头像 发表于 03-06 11:21 828次阅读

    ADSP-CM403BSWZ-CF和ADSP BF518相比到底谁速度快?

    ,IFFT. 2. 如果仅考虑32BIT的定点DSP运算,比如FIR,DFFT,IFFT等,ADSP-CM403BSWZ-CF(240Mhz)和ADSP BF518(400Mhz)相比到底谁速度快?
    发表于 01-15 06:04

    如何设置LTspice来让仿真的速度快一些?

    我在用LTspice做电源仿真的时候,我发现仿真的速度很慢,该如何设置LTspice来让仿真的速度快一些,thanks
    发表于 01-05 07:03