吉长江：影谱科技的视频植入技术-电子发烧友网

本文来自影谱科技创新研发中心负责人吉长江在8月举行的LiveVideoStack Meet武汉站的分享，并由LiveVideoStack整理而成。吉长江详细介绍了视频植入的流程、典型方法、难点及技术趋势，他认为，基于学习的视频植入将是未来的发展趋势。

大家好，我是来自北京影谱科技的吉长江，今天与大家分享的是影谱科技的视频植入技术。

1. 背景介绍

或许此前大家对影谱科技还不是特别了解，但是随着近期备受瞩目的商汤对影谱科技的投资以及一同开拓大文娱市场等一系列活动，影谱科技逐渐走入大众的视野。影谱科技在互联网行业已耕耘数年，从开始参与的移动互联网到现在专注于To B方向的视频植入，我们致力于优化原生广告的用户体验，努力将其打造为一个良好的互联网变现方式，这也坚定了我们沿着To B方向走下去的决心，接下来将与大家分享其中的相关技术重点。

2. 原生视频广告

我们认为网络视频生态环境可以简单描述为一个三体系统，不仅仅是一个视频与观众之间形成的简单关系，还应考虑在其中扮演重要角色的广告。我们在设计广告这一网络视频中最重要的变现手段时，必须要照顾到内容制片方与视频平台方的变现诉求，还应照顾到用户的观看体验。过于生硬的贴片广告势必会让用户的观看视频体验大打折扣，因而如何实现良好的原生视频广告效果就变得非常重要。当然这里还有最重要的一点：我们通过视频植入技术实现原生视频广告，可以有效降低广告主的盲投风险，原生视频广告允许广告主看到此视频广告的拍摄小样或在此视频上线后再决定是否投资，相对于传统贴片广告而言有效降低了招商阶段的风险。

2.1 视频植入技术

上图是我们与芒果台合作，借助视频植入技术实现的原生广告效果，大家可以看到通过此项技术我们可以将广告比较完美地植入到视频画面中。也许有人会将其简单地理解为P图，但是在视频当中实现此效果的复杂程度远高于简单的图像处理，我们需要处理摄像机的运动轨迹、景深、遮挡关系等等，并非简单的后期效果叠加。

2.1.1 视频植入的定义

如果对视频植入技术做出一个准确的定义，我认为视频植入就是在视频中自动化完成各类视觉元素融合的过程。首先“视觉元素”包括图片、3D模型，甚至包括视频中的视频等等；此外，必须要做到的是精准而自然地“融合”，也就是必须要体现真实感。因此我们需要通过精准掌握摄像机的运动轨迹，妥善处理多个物体的遮挡关系，准确估算光照等操作，让植入的视频元素自然地出现在视频画面中而不显得突兀生硬。为了实现以上效果，我们不仅要解决一系列技术细节问题，还需要将整个视频植入过程完全自动化、标准化、流程化、规模化。

通过以上描述大家可以看出，视频植入是一个全新的视觉任务。与传统的几种视觉任务相比，视频植入也许在技术与困难上有诸多相似之处，但总体上来说还是有很大差异。例如大家非常熟悉的强调实时性的AR，其植入对象是比较虚拟化的，用户很容易分辨出植入对象并非真实的视频元素；但对视频植入广告来说需要完成的是影视级别的植入，也就是需要实现让植入广告成为原生拍摄的真实元素，使观众无法准确分辨广告的后期植入效果。达成这种以假乱真的效果需要的基础技术与SFM、视觉SLAM技术有相通之处。

2.1.2 视频植入过程

那么实现影视级别的视频植入需要经过哪些步骤呢？首先需要的是视频镜头定位，而后进行包括平面检测与摄像机运动深度恢复在内的3D恢复；随后经过一系列的质量评估后就可确定比较适合的植入广告位置，接下来进行光照估计，完成最终的渲染。大家不难看出这是一个从解构到重构的过程，解构主要是运用计算机视觉技术从语义和几何两个角度进行处理；重构则运用CG技术实现光照估计与渲染视觉元素的处理。

1）语义解构

首先让我们来看一下语义解构。所谓语义解构，换句话说就是视频内容的结构化。我们认为视频本质上是一个多模态信息，在此多模态信息中最重要的是图像，也是观众最关心的，其次是字幕与声音；如果从维度上考虑，视频可分为人物、场景、行为三个维度。其中我们会特别关注的是人物，因为无论是视频方还是广告方都会格外重视人物的明星效应与其背后的商业价值，这也是我们确定的一个能够良好实现人脸识别商业化落地的关键点。上图是我们的AI处理系统识别视频中明星的效果图，通过基于人物的检测追踪和识别技术，我们可以检测识别出影视剧、综艺节目等视频画面中出现的大大小小的明星，准确标注他们出现的时间点与位置并将这些数据整理入库。这得益于与自动化所和商汤的合作，现在这套系统已支持超过一千位明星的识别并可实现从正脸到侧脸的检测，同时我们自己也进行了包括场景优化在内的各项技术提升。

2）几何解构

上图的Demo是为了更好地说明如何进行几何解构。所谓的几何解构需要处理的是从2D画面到3D场景的重建过程，大致过程是估算摄像机的运动并通过算法从2D点中生成3D点，从而实现3D的重建与人物的遮罩，为后续妥善处理视频中元素的遮挡问题进行技术铺垫。

3）3D重建的典型过程

对SLAM有所了解的同学可能比较熟悉接下来的内容——3D重建的典型过程。之所以将其称为一个典型的过程，是因为除此之外还有其它的解决方法，但目前来说这套方法是最成熟的，可被称为“典型”，主要由以下步骤组成：首先进行的是特征点的计算和匹配；接下来，基于特征点匹配的结果系统会估算摄像机的位姿并跟踪其运动得出其运动轨迹，之后经过一系列优化处理，生成稀疏点云或稠密深度图。

4）面临的问题

此典型过程与传统方法一样面临着很多问题，使之无法处理所有镜头与画面。比较典型的问题包括复杂的场景和遮挡，例如难以在一个人头攒动的场景中实现准确的3D重建。而最重要的问题则是纹理缺乏，一旦目标缺乏纹理就无法从中准确提取特征点。特征点侦测在整条Pipeline中处于基础位置，无法准确提取特征点意味着后面的所有处理都无法进行。之后会讲到如何用深度学习技术解决此项问题，这也是现在的一个技术发展前沿。除了以上描述的问题，我们还面临诸如摄像机运动轨迹退化（摄像机静止或纯旋转）、非刚性（摄像机与目标同时运动）等不利于我们进行三维结构还原的情景与Pipeline过长造成鲁棒性降低等问题，这就要求我们寻求更稳定而有效的解决方案。

2.2 基于学习的方法

针对以上问题，我们提出的方案是基于学习的方法。大家可以思考这个问题：人类是如何通过视觉感知周围环境的？有人会说是不是因为人类有两只眼睛，可利用双目进行三维场景的视觉重构？其实单目视觉也可实现类似效果，通过大量学习收获的海量信息，即使一只眼睛的小黄人也可以理解三维世界，例如杯子与桌面的位置可通过杯子一般放在桌面上方的常识确定，人与车的相对位置可通过两者的大小来确定等。这些经验知识指导人们还原与认知自己所处的环境，而我们日常观看的视频都是基于单目摄像机拍摄形成的一个图像帧序列，那么单目+学习能否还原3D结构？事实证明这个思路是正确的。

2.2.1 卷积神经网络——替代深度估计模块

接下来先看一个比较典型的例子，上图是用深度卷积网络替代深度估计模块进行深度侦测的示意图。我们可以看到，整个网络的结构类似于一个包括编码器与解码器在内的自编码器；首先我们输入一个立体视觉的两张图片，通过深度网络估算出相应深度图。当然这里的两张图片并不随机，图片的采集有一定要求，我们可以在KITTI开源数据库中得到采集照片需要的数据集；拍摄时用相对距离已知且固定，焦距相同的两台照相机同时对同一个场景进行拍摄，采集符合要求的照片并得到深度图；成功输出深度图后，我们可根据此双目系统的基础数学公式：

D（x）=f*B/d（x）

利用深度图估算并预测出原图所展示的空间深度信息，产生的预测值与实际的真实值之间存在差异值；我们将这个所有像素的光度差异值作为损失函数进行基于WARP的反向传播并借此训练神经网络，经过大量训练就可得到这样一个可对于单视图进行深度估计的卷积神经网络。输入一张图片，此卷积神经网络就可生成一张我们所需要的深度图，这样采用深度学习技术完全替代传统的深度估计的过程是比较典型的。

2.2.2 卷积神经网络——替代多个模块

不仅如此，我们还可实现同时进行深度和摄像机运动的估计。此方法与之前提到的利用几何原理与双目相机模型的方法类似，但这里用来训练CNN的素材是一段视频，其原理是利用相邻帧之间的微小差异进行反算，使用针孔相机模型公式：

可同时训练两个独立的神经网络，分别用来输出深度图与估算摄像机的旋转平移等运动。这与前一个神经网络的训练类似，都是致力于实现无监督的全自动化学习过程。对于视频而言由于其帧间存在很多关联信息，这些关联信息可作为神经网络的学习数据，因此我们可在这里实现无监督学习。无监督学习的好处在于节省了大量的高成本的人工标记工作。因此在视频分析领域，无监督学习会扮演着越来越重要的角色，值得大家去关注。当然这里并不是说传统的有监督学习一无是处，在诸多专业细分领域例如视频观众识别等还需要依赖人工标注的有监督学习。鉴于视频帧间存在可以被利用的丰富信息，虽然与传统图像处理相比难度更大，但我们可以利用无监督学习实现更高效的视频处理效果。

2.2.3 2D语义分割结合点云

深度学习还能帮助我们做更多的事情。除了估算深度与摄像机运动，我们还可以利用语义分割的结果进行平面检测。由于在植入广告时我们会对墙面桌面等平面元素给予更多的关注，而如果只是从点云中简单粗暴地进行拟合，其过程的处理复杂程度很高，效率十分低下。因此，可以结合语义信息用深度学习进行2D语义分割，将分割结果与3D重建的结果结合即可得到了一个含有语义信息的深度图或点云，在此基础上进行的平面检测，其算法复杂程度会大大降低，准确度会显著提高，这些就是深度学习带给我们的便利。

2.2.4 深度学习助力几何解构

深度学习在几何解构方面的应用还有很多，其不仅能替换现有方法中的一个或多个模块，也能在传统几何方法的基础上加入语义信息。这里需要注意的是，单独依靠深度学习的方法完成视频植入的效果与传统方法还是存在一定差距，不过这不妨碍我们将其作为未来的发展方向不断探索。从之前的例子我们可以看出，尽管传统方法依旧不可被替代，但深度学习的确有助于克服传统方法的诸多不足，例如应对缺乏纹理的对象时传统方法会明显力不从心，而利用经过训练的深度神经网络进行深度估算与摄像机轨迹追踪会明显改善处理效果。

3. 展望未来

3.1 基于学习的视频植入

从长远来看，我认为基于无监督训练的深度学习处理视频植入是一个不可否认的趋势。随着海量的学习与其背后数据的不断积累，系统可在不更新训练模型的条件下持续提高模型的识别能力，也就是我们常说的“学无止境”。“学无止境”意味着持续不断地获得新数据与提升能力，我想无论是对技术人员还是计算机网络而言，这一点都是十分关键的。

3.2 智能影像生产

也许大家从我的分享中感受到了视频植入的神奇，但视频植入是一个针对特定领域的问题。我们往往关注的是如何将一个海报贴在墙上或把一个3D模型放在桌面上。如果我们将视频植入技术发展到批量的智能影像生产则需要面临更大的挑战，也就是借助技术实现更通用、精确、真实的视频植入效果，才能收获符合智能影像生产要求的产品。相信随着深度学习的发展，我们期待的智能影像生产将获得瞩目的进步，这也是我们与用户共同的目标。

随着近年短视频行业的蓬勃发展，除了关注长视频领域，我们也越来越关注包括短视频平台、直播平台在内的短视频领域。我们期待利用基于视频植入技术的原生视频广告将广告主的一些想法自然添加在直播画面里的桌面或墙上并随着摄像机的运动实现自然变化，这种后期植入式海报是我们的优势产品之一。我相信，借助科技的力量，利用场景的关联性优化广告投放效果能让广告成为互联网视频的锦上之花。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉