0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数字视频稳定调查:概念、方法和挑战

共熵服务中心 来源:未知 2022-11-16 20:30 次阅读

本文翻译自《ACM技术洞察》科学杂志上的一篇文章:《Survey on Digital Video Stabilization: Concepts, Methods, and Challenges》,原文链接如下:

https://dl.acm.org/doi/pdf/10.1145/3494525


CSUR-IG是谁?

CSUR-IG是计算调研兴趣小组 Computing SURveys Interest Group的缩写。我们是ACM技术洞察研究团队。我们是来自4个地方的同学:

1名深圳大学大三学生

2名中原工学院研一学生

1名安阳工学院大三学生

1名南通科技学院大三学生

我们在OpenHarmony成长计划啃论文俱乐部里,与华为、软通动力、鸿湖万联等公司一起,学习和研究操作系统技术…


1. 简介

1.1 本文摘要

数字视频稳定是一项具有挑战性的任务,旨在通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。

稳定可以借助硬件(稳定器)的方式实现,也可以通过软件算法的方式实现。本文谈的是后者。

尽管在解决这一任务的文献中发现了各种作品,但它们的组织和分析尚未受到太多关注。在这项工作中,我们根据提议的分类法对视频稳定的文献进行了全面回顾。介绍了该问题的正式定义,以及物理术语的简要解释。我们还就这一活跃领域的主要挑战和未来趋势进行了全面讨论。

1.2 数字视频稳定的定义

数字视频稳定就是通过平滑相机轨迹将可能不稳定的视频转换为令人愉快的视频。视频可以表示为一系列照片(帧)。

图中,真实世界裁剪(白色)产生的照片和视频(蓝色)的表示。左:以矩形表示的照片。中间和右侧:以音量表示的稳定和不稳定视频。

数字视频稳定就想解决不用设备(直接用手)的情况下,把视频拍得好看,很有商业价值。


2. 正式定义和分类

2.1 相机运动方法

我拿着相机,可以前后左右走,举高举低(第一个图),我拍特别角度,拿着相机转(第二个图),合起来就是复杂运动(第三个图)。

2.2数字视频稳定的一些方法

2.2.1 经典的方法(三步走):

数字视频稳定的典型过程涉及三个不同的步骤,如下图所示:(1) 摄像机运动估计,(2) 不需要的运动确定,以及 (3) 稳定视图渲染。

2.2.2 基于深度学习的方法:

深度学习的方法提出了深度神经网络架构,以有监督或无监督的方式稳定视频。


3.主要挑战场景

3.1相机的估计运动

拍摄的过程中,人会带着相机运动,拍摄的事物也会运动,组合起来就是表观运动,也就是拍出来的东西。相机的估计运动就是通过表观运动(拍出来的东西)估计出相机本身是怎么运动的。

相机运动估计技术地图,主要讲了估计出相机本身是怎么运动中2D(二维),3D(三维)和2.5D(混合方法)的一些处理方法,并且给出了相应的描述和优缺点比较:

表 1. 对数字视频稳定中摄像机运动估计的进步做出贡献的一些主要工作总结

3.2怎么确定不需要的运动

拍摄过程中因为不必要的抖动导致画质不好,这种运动需要确定,就是确定不需要的运动。

不需要的运动确认技术地图,主要讲了为了去除的不需要的运动部分以获得更平滑的路径中基于过滤的方法,基于插值的方法,基于优化的方法,并且给出了相应的描述和优缺点比较:

表 2. 有助于推动数字视频稳定中的无用运动确定的一些主要工作总结

3.3稳定视图渲染

我们要处理一些丢失或者模糊的帧,也就是帧的修复。

稳定渲染的技术地图,主要讲了渲染稳定的帧中中基于填充的方法和基于裁剪的方法,并且给出了相应的描述和优缺点比较:

表 3. 推动数字视频稳定渲染新视图的一些主要工作总

4.基于深度学习的方法

基于深度学习的视频稳定方法,大多数使用带有配对视频的数据集进行训练,其中每一对都有一个不稳定的和一个真实稳定的视频。在这种情况下,如下图所示,目标是找到一个网络,该网络从不稳定版本中预测帧,使其与稳定版本尽可能相似。

图中,基于深度学习的方法中常用的方法。不稳定的帧和一些时间信息提供给深度网络,以在训练/推理阶段预测稳定/稳定的帧。

深度学习数字视频稳定技术地图,这种方法没有明确地估计相机运动,但他们使用的是表观运动。通常,不需要的运动的确定和移除是隐式完成的:网络学习预测类似于真实稳定视频的视频,以下就是给出论文技术的盘点:

表 4. 基于深度神经网络执行数字视频稳定的方法总结

5.结论

5.1 过去的回顾
这项工作对数字视频稳定文献中可用的方法进行了回顾。我们根据使用的方法对方法进行分类,无论是经典的还是基于深度学习的。经典方法分为三个主要阶段:(1)相机运动估计,(2)确定不需要的运动,以及(3)稳定帧的渲染。对于这些步骤中的每一个,我们定义并分类了这些方法。
5.2本文结论
  • 一些实际应用可以受益于数字视频稳定及其开发所产生的知识。

  • 需要更好地定义使用这些方法的场景。

  • 与其计算机视觉领域类似,深度学习已成为近年来视频稳定的趋势。

  • 数字视频稳定文献中的关键点之一是还没有明确定义的评估指标。

<本文完>


写在最后


OpenHarmony 成长计划—“啃论文俱乐部”(以下简称“啃论文俱乐部”)是在 2022年 1 月 11 日的一次日常活动中诞生的。截至 3 月 31 日,啃论文俱乐部已有 87 名师生和企业导师参与,目前共有十二个技术方向并行探索,每个方向都有专业的技术老师带领同学们通过啃综述论文制定技术地图,按“降龙十八掌”的学习方法编排技术开发内容,并通过专业推广培养高校开发者成为软件技术学术级人才。


啃论文俱乐部的宗旨是希望同学们在开源活动中得到软件技术能力提升、得到技术写作能力提升、得到讲解技术能力提升。大学一年级新生〇门槛参与,已有俱乐部来自多所高校的大一同学写出高居榜首的技术文章。


如今,搜索“啃论文”,人们不禁想到、而且看到的都是我们——OpenHarmony 成长计划—“啃论文俱乐部”的产出。






OpenHarmony开源与开发者成长计划—“啃论文俱乐部”学习资料合集


1)入门资料:啃论文可以有怎样的体验

https://docs.qq.com/slide/DY0RXWElBTVlHaXhi?u=4e311e072cbf4f93968e09c44294987d


2)操作办法:怎么从啃论文到开源提交以及深度技术文章输出https://docs.qq.com/slide/DY05kbGtsYVFmcUhU


3)企业/学校/老师/学生为什么要参与 & 啃论文俱乐部的运营办法https://docs.qq.com/slide/DY2JkS2ZEb2FWckhq


4)往期啃论文俱乐部同学分享会精彩回顾:

同学分享会No1.成长计划啃论文分享会纪要(2022/02/18)https://docs.qq.com/doc/DY2RZZmVNU2hTQlFY

同学分享会No.2 成长计划啃论文分享会纪要(2022/03/11)https://docs.qq.com/doc/DUkJ5c2NRd2FRZkhF

同学们分享会No.3 成长计划啃论文分享会纪要(2022/03/25)

https://docs.qq.com/doc/DUm5pUEF3ck1VcG92?u=4e311e072cbf4f93968e09c44294987d


现在,你是不是也热血沸腾,摩拳擦掌地准备加入这个俱乐部呢?当然欢迎啦!啃论文俱乐部向任何对开源技术感兴趣的大学生开发者敞开大门。



扫码添加 OpenHarmony 高校小助手,加入“啃论文俱乐部”微信群


后续,我们会在服务中心公众号陆续分享一些 OpenHarmony 开源与开发者成长计划—“啃论文俱乐部”学习心得体会和总结资料。记得呼朋引伴来看哦。

























原文标题:数字视频稳定调查:概念、方法和挑战

文章出处:【微信公众号:开源技术服务中心】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源技术
    +关注

    关注

    0

    文章

    389

    浏览量

    7906
  • OpenHarmony
    +关注

    关注

    25

    文章

    3649

    浏览量

    16086

原文标题:数字视频稳定调查:概念、方法和挑战

文章出处:【微信号:开源技术服务中心,微信公众号:共熵服务中心】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    爱普生XV-3510CB陀螺仪传感器实现图像稳定与运动检测功能

    适合应用于需要高度稳定性和精度的场景,特别是在数字视频稳定器(DVC)与动态稳定相机(DSC)的图像稳定性监测领域,以及具有人机交互界面的运
    的头像 发表于 10-31 13:57 158次阅读
    爱普生XV-3510CB陀螺仪传感器实现图像<b class='flag-5'>稳定</b>与运动检测功能

    使用DaVinci SoC的数字视频

    电子发烧友网站提供《使用DaVinci SoC的数字视频.pdf》资料免费下载
    发表于 10-15 09:51 0次下载
    使用DaVinci SoC的<b class='flag-5'>数字视频</b>

    视频时钟合成芯片怎么用

    格式,以确保视频信号的同步和稳定。以下是关于视频时钟合成芯片的使用指南: 1. 视频时钟合成芯片的基本概念
    的头像 发表于 10-10 11:17 184次阅读

    SDI接口的基本概念、技术特点及应用

    SDI接口,即串行数字接口(Serial Digital Interface),是一种用于传输数字视频信号的接口标准。它广泛应用于广播、电影制作、后期制作等领域。 一、SDI接口的基本概念 1.1
    的头像 发表于 08-20 15:17 2691次阅读

    SDI接口的基本概念及传输信号类型

    SDI(Serial Digital Interface,串行数字接口)是一种用于传输数字视频信号的接口标准。它广泛应用于广播、电影制作、后期制作等领域。 一、SDI接口的基本概念 1.1 SDI
    的头像 发表于 08-20 15:01 3711次阅读

    sdi是数字信号还是模拟信号

    SDI(Serial Digital Interface)是一种数字信号接口,用于传输未压缩的数字视频和音频信号。 SDI的概念 SDI是一种串行数字接口,主要用于传输高清晰度电视(H
    的头像 发表于 08-20 14:29 1040次阅读

    英伟达面临双重反垄断调查挑战

    英伟达,这家在人工智能芯片领域占据领先地位的科技公司,近期遭遇了前所未有的挑战。在享受了数月由AI芯片需求激增带来的股价暴涨和市场乐观情绪后,英伟达不得不面对来自监管机构的双重反垄断调查
    的头像 发表于 08-14 11:45 516次阅读

    CLC020 SMPTE 259M数字视频串行器,集成电缆驱动器数据表

    电子发烧友网站提供《CLC020 SMPTE 259M数字视频串行器,集成电缆驱动器数据表.pdf》资料免费下载
    发表于 07-10 11:11 0次下载
    CLC020 SMPTE 259M<b class='flag-5'>数字视频</b>串行器,集成电缆驱动器数据表

    TVP5160数字视频解码器数据表

    电子发烧友网站提供《TVP5160数字视频解码器数据表.pdf》资料免费下载
    发表于 07-09 11:46 0次下载
    TVP5160<b class='flag-5'>数字视频</b>解码器数据表

    TVP5146M2高质量单芯片数字视频解码器数据表

    电子发烧友网站提供《TVP5146M2高质量单芯片数字视频解码器数据表.pdf》资料免费下载
    发表于 07-09 11:35 0次下载
    TVP5146M2高质量单芯片<b class='flag-5'>数字视频</b>解码器数据表

    TVP5147高质量、单芯片数字视频解码器数据表

    电子发烧友网站提供《TVP5147高质量、单芯片数字视频解码器数据表.pdf》资料免费下载
    发表于 07-09 11:34 0次下载
    TVP5147高质量、单芯片<b class='flag-5'>数字视频</b>解码器数据表

    TVP5147M1高质量、单芯片数字视频解码器数据表

    电子发烧友网站提供《TVP5147M1高质量、单芯片数字视频解码器数据表.pdf》资料免费下载
    发表于 07-09 11:25 0次下载
    TVP5147M1高质量、单芯片<b class='flag-5'>数字视频</b>解码器数据表

    TVP5146高质量、单芯片数字视频解码器数据表

    电子发烧友网站提供《TVP5146高质量、单芯片数字视频解码器数据表.pdf》资料免费下载
    发表于 07-04 10:00 0次下载
    TVP5146高质量、单芯片<b class='flag-5'>数字视频</b>解码器数据表

    CLC021 SMPTE 259M数字视频串行器数据表

    电子发烧友网站提供《CLC021 SMPTE 259M数字视频串行器数据表.pdf》资料免费下载
    发表于 07-02 10:06 0次下载
    CLC021 SMPTE 259M<b class='flag-5'>数字视频</b>串行器数据表

    数字视频接口DVI结构设计详解

    当源和接收器(显示单元)连接时,源将从显示器查询显示功能。它共享显示标识数据,其中包括 Gamma 值、颜色特征以及支持的视频模式列表、原始分辨率和指定的首选模式等参数。
    发表于 02-09 07:46 1639次阅读