CVPR2019新作：一种基于视频流的自监督特征表达方法-电子发烧友网

本文为新栏目——将门好声音第5期。

作者是来自将门计算机视觉社群的群友、中科院计算技术研究所VIPL课题组博士生——李勇。本文中，他将为大家介绍中科院计算所VIPL组的CVPR2019新作：一种基于视频流的自监督特征表达方法，通过利用巧妙的自监督约束信号，得到提纯的面部动作特征用于微表情识别。

如果你也想与广大群友分享自己的研究工作、文章观点、出坑经验，随时与群主小姐姐联系！只要内容合适，我“门”送你头条出道！

著名心理学家Paul Ekman和研究伙伴W.V.Friesen，通过对脸部肌肉动作与对应表情关系的研究，于1976年创制了“面部运动编码系统”，而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本，有监督学习的方法往往会导致模型过拟合。本文中，将为大家介绍中科院计算所VIPL组的CVPR2019新作：作者提出了一种基于视频流的自监督特征表达方法，通过利用巧妙的自监督约束信号，得到提纯的面部动作特征用于微表情识别。

李勇，中国科学院计算技术研究所视觉信息处理与课题组博士研究生，导师为常虹副研究员以及山世光研究员，研究方向为开放场景下的人脸表情分析。在攻读博士学位期间，李勇在 CVPR， TIP 等会议及期刊上发表过多篇学术论文，其已发表的会议文章均被录取为口头报告。此外，李勇获得ACM Multimedia 2017 亲属关系识别国际竞赛冠军。

论文信息：

Yong Li， Jiabei Zeng， Shiguang Shan， Xilin Chen. “Self-Supervised Representation Learning From Videos for Facial Action Unit Detection”， CVPR 2019， pp. 10924-10933， Long Beach， California， USA， June 16-20， 2019.

论文链接：

http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Self-Supervised_Representation_Learning_From_Videos_for_Facial_Action_Unit_Detection_CVPR_2019_paper.pdf

一、研究背景

面部运动编码系统（FACS，Facial Action Coding System）从人脸解剖学的角度，定义了44个面部动作单元（Action Unit，简称AU）用于描述人脸局部区域的肌肉运动。

图1. 面部动作单元示例

如图1所示，AU9表示“皱鼻”，AU12表示“嘴角拉伸”。各种动作单元之间可以自由组合，对应不同的表情。如“AU4（降低眉毛）+AU5（上眼睑上升）+AU24（嘴唇相互按压）”这一组合对应“愤怒”这一情绪状态。

面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展，其原因在于不同的AU分布在人脸的不同区域，表现为不同强度、不同尺度的细微变化。具体来说，为一分钟的人脸视频标注一个AU，需要耗费一名AU标注专家30分钟。目前学术界已发布的AU数据集只包含了有限的采集对象，以及有限的人脸图像（如2017年CMU发布的GFT数据集有96个人，约35，000张人脸图像）。

当前已有的工作多采用人脸区域分块、注意力机制等方法学习人脸局部区域的AU特征，这类方法在训练阶段需要利用精确标注的AU标签，由于目前业界发布的AU数据集人数及图像总量不足，采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象，这无疑限制了其实际使用效果。

我们提出了一种能够在不依赖AU标签的前提下，从人脸视频数据中自动学习AU表征的方法（Twin-Cycle Autoencoder，简称TCAE）。TCAE用于后续的AU识别任务时，只需要利用训练数据训练一个分类器即可，显著减少了所需的训练数据，并提升了模型的泛化能力。

二、方法概述

如图2所示，该方法以两帧人脸图像（源图，目标图）之间的运动信息为监督信号，驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于，模型只有感知并理解了人脸图像中各个面部动作单元的状态（AU是否激活），才能够将源图的面部动作转换为目标图像的面部动作。

图2. TCAE 设计图

考虑到两帧人脸图像之间的运动信息包含了AU以及头部姿态的运动分量，TCAE通过利用巧妙的自监督约束信号，使得模型能够分离出AU变化引起的运动分量，以及头部姿态变化引起的运动分量，从而得到提纯的AU特征。与其他监督方法，TCAE可以利用大量的无标注人脸视频，这类视频是海量的。与半监督或者弱监督方法相比， TCAE采用了自监督信号进行模型训练，避免了对数据或者标签的分布做出任何假设。

三、算法详解

如图3所示，TCAE包含四个阶段，分别是特征解耦，图像重建，AU循环变换，以及姿态（pose）循环变换。

图3. TCAE的四个阶段示意图，四个阶段分别是特征解耦，图像重建，AU循环变换，以及姿态循环变换。

给定两张人脸图像，TCAE在特征解耦阶段使用编码器得到每张图像的AU特征以及姿态特征，随后，两帧图像的AU特征被送入AU解码器，用于解码出AU位移场；两帧图像的姿态特征被送入姿态解码器，用于解码出姿态位移场。考虑到AU的变化是稀疏的，且AU位移场的数值与姿态位移场相比更小，我们为AU位移场添加了L1约束：

在目标图重建阶段，TCAE通过线性组合AU位移场和pose位移场，得到源图和目标图之间的整体位移场，进行图像重建：

在AU循环变换阶段，仅变换了AU的人脸图像被重新变换到源图，由此我们获得一个像素层面的一致性约束：

另外，对于变换了AU的人脸图像，其AU特征应该接近目标图像的AU特征，其姿态特征应该和源图的姿态特征一致，由此我们获得一个特征层面的一致性约束：

同理，在pose循环变化阶段，我们同样可以获得类似的像素及特征层面的一致性约束：

四、实验结果

多个数据集上的实验证明，TCAE能够成功提取出人脸图像的AU及姿态特征。如图4所示，给定两张人脸图像（源图，目标图），TCAE能够仅仅改变源图的AU或者头部姿态。可视化的AU位移场呈现出运动方向的多样性。

图4. 可视化结果在AU识别任务上，TCAE取得了与监督方法可比的性能。

表1及表2的结果表明，TCAE明显优于其他自监督方法。在GFT数据集（该数据集存在大范围的头部姿态变化）上，TCAE的性能优于其他监督方法。

表1. BP4D及DISFA数据集评测结果

（评测标准：F1 值（%））

表2. GFT及EmotioNet数据集评测结果（评测标准：F1 值（%））

五、总结与展望

TCAE通过自监督的方法学习到了鲁棒的AU表征，实验证明该AU表征是鲁棒的，适用于AU分类任务的。可视化结果表明，TCAE具有潜在的人脸表情编辑价值。另外，TCAE在训练阶段使用了大量的无标签数据（近6000人，约10，000，000张图像），由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高，这一点在BERT的实验分析中也得到了印证：

Good results on pre-training is 》1，000x to 100，000 more expensive than supervised training.

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

计算机视觉

计算机视觉

+关注

关注
8

文章
1696

浏览量
45923
视频数据

视频数据

+关注

关注
0

文章
18

浏览量
10958
数据集

数据集

+关注

关注
4

文章
1205

浏览量
24635

原文标题：将门好声音 | CVPR2019 “识面知心”——基于自监督学习的微表情特征表达

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

一种提升无人机小物体跟踪精度的方法

这篇文章提出了一种新颖的目标跟踪方法SFTrack，针对无人机(UAV)视频中的独特挑战，采用了三种简单有效的策略，尤其是在处理低置信度检测、小规模物体和无人机运动方面表现出色。通过在

发表于 11-01 10:23 •128次阅读

<b class='flag-5'>一种</b>提升无人机小物体跟踪精度的<b class='flag-5'>方法</b>

一种简单高效配置FPGA的方法

本文描述了一种简单高效配置FPGA的方法，该方法利用微处理器从串行外围接口（SPI）闪存配置FPGA设备。这种方法减少了硬件组件、板空间和成本。

发表于 10-24 14:57 •349次阅读

<b class='flag-5'>一种</b>简单高效配置FPGA的<b class='flag-5'>方法</b>

特征工程实施步骤

数据中提取数值表示以供无监督模型使用的方法（例如，试图从之前非结构化的数据集中提取结构）。特征工程包括这两种情况，以及更多内容。数据从业者通常依赖ML和深度学习算法

发表于 10-23 08:07 •176次阅读

一种无透镜成像的新方法

使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜为了研究微电子或光子元件中的纳米级图案，一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。层析成像是一种强大的无

发表于 07-19 06:20 •310次阅读

<b class='flag-5'>一种</b>无透镜成像的新<b class='flag-5'>方法</b>

rup是一种什么模型

RUP（Rational Unified Process，统一建模语言）是一种软件开发过程模型，它是一种迭代和增量的软件开发方法。RUP是由Rational Software公司（现为

发表于 07-09 10:13 •1139次阅读

人脸检测的五种方法各有什么特征和优缺点

人脸检测是计算机视觉领域的一个重要研究方向，主要用于识别和定位图像中的人脸。以下是五种常见的人脸检测方法及其特征和优缺点的介绍：基于肤色的方法

发表于 07-03 14:47 •639次阅读

Meta发布新型无监督视频预测模型“V-JEPA”

Meta，这家社交媒体和科技巨头，近日宣布推出一种新型的无监督视频预测模型，名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注，因为

发表于 02-19 11:19 •933次阅读

一种光固化通道数字微流控芯片(pCDMF)

数字PCR（dPCR）是一种用于核酸绝对定量的强大技术，具有超高灵敏度。然而，一个不可或缺的过程——核酸提取（NAE）难以与dPCR整合到一个单一器件中，因为它们都涉及复杂的过程和精细

发表于 01-03 10:35 •640次阅读

语言模型的弱监督视频异常检测方法

了局部Transformer的mask，从时序上将输入视频帧特征分割为多个等长块，令自注意力计算局限于块内，减少了冗余信息建模，降低计算复杂度。

发表于 01-02 15:20 •760次阅读

基于神经辐射场的自监督多相机占用预测

本研究提出了一种自监督的多摄相机3D占据预测方法，名为OccNeRF。该方法旨在解决无界场景的建模问题。

发表于 01-02 14:53 •416次阅读

一种简易恒流充电器的制作方法

流充电器的制作方法，帮助大家了解并掌握这项技术。制作原理恒流充电器是一种能够保持恒定电流输出的充电器，其原理是通过负反馈调节电路，使充电电流始终保持在设定值附近。简易恒

发表于 12-14 14:32 •1272次阅读

一种产生激光脉冲新方法

等离子体中脉冲压缩的概念英国和韩国的科学家提出了一种产生激光脉冲的新方法，其功率是现有激光脉冲的1000多倍。科学家们使用计算机模拟联合研究，展示了一种压缩光的新方法，以充分提高光

发表于 12-07 06:32 •466次阅读

基于transformer和自监督学习的路面异常检测方法分享

铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法，有助于定位异常区域。

发表于 12-06 14:57 •1451次阅读

一种大功率PCB散热管理的方法

一种大功率PCB散热管理的方法

发表于 12-05 14:28 •561次阅读

动态场景下的自监督单目深度估计方案

自监督单目深度估计的训练可以在大量无标签视频序列来进行，训练集获取很方便。但问题是，实际采集的视频序列往往会有很多动态物体，而自

发表于 11-28 09:21 •672次阅读