一种基于视频流的自监督特征表达方法-电子发烧友网

编者按：著名心理学家Paul Ekman和研究伙伴W.V.Friesen，通过对脸部肌肉动作与对应表情关系的研究，于1976年创制了“面部运动编码系统”，而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本，有监督学习的方法往往会导致模型过拟合。本文中，将为大家介绍中科院计算所VIPL组的CVPR2019新作：作者提出了一种基于视频流的自监督特征表达方法，通过利用巧妙的自监督约束信号，得到提纯的面部动作特征用于微表情识别。

1.研究背景

面部运动编码系统（FACS，Facial Ac tion Coding System）从人脸解剖学的角度，定义了44个面部动作单元（Action Unit，简称AU）用于描述人脸局部区域的肌肉运动，如图1所示，AU9表示“皱鼻”，AU12表示“嘴角拉伸”。各种动作单元之间可以自由组合，对应不同的表情。如“AU4（降低眉毛）+AU5（上眼睑上升）+AU24（嘴唇相互按压）”这一组合对应“愤怒”这一情绪状态。

面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展，其原因在于不同的AU分布在人脸的不同区域，表现为不同强度、不同尺度的细微变化。具体来说，为一分钟的人脸视频标注一个AU，需要耗费一名AU标注专家30分钟。目前学术界已发布的AU数据集只包含了有限的采集对象，以及有限的人脸图像（如2017年CMU发布的GFT数据集有96个人，约35，000张人脸图像）。

图1. 面部动作单元示例

当前已有的工作多采用人脸区域分块、注意力机制等方法学习人脸局部区域的AU特征，这类方法在训练阶段需要利用精确标注的AU标签，由于目前业界发布的AU数据集人数及图像总量不足，采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象，这无疑限制了其实际使用效果。

我们提出了一种能够在不依赖AU标签的前提下，从人脸视频数据中自动学习AU表征的方法（Twin-Cycle Autoencoder，简称TCAE）。TCAE用于后续的AU识别任务时，只需要利用训练数据训练一个分类器即可，显著减少了所需的训练数据，并提升了模型的泛化能力。

2.方法概述

如图2所示，该方法以两帧人脸图像（源图，目标图）之间的运动信息为监督信号，驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于，模型只有感知并理解了人脸图像中各个面部动作单元的状态（AU是否激活），才能够将源图的面部动作转换为目标图像的面部动作。

图2. TCAE 设计图

考虑到两帧人脸图像之间的运动信息包含了AU以及头部姿态的运动分量，TCAE通过利用巧妙的自监督约束信号，使得模型能够分离出AU变化引起的运动分量，以及头部姿态变化引起的运动分量，从而得到提纯的AU特征。与其他监督方法，TCAE可以利用大量的无标注人脸视频，这类视频是海量的。与半监督或者弱监督方法相比， TCAE采用了自监督信号进行模型训练，避免了对数据或者标签的分布做出任何假设。

3.算法详解

如图3所示，TCAE包含四个阶段，分别是特征解耦，图像重建，AU循环变换，以及姿态（pose）循环变换。

给定两张人脸图像，TCAE在特征解耦阶段使用编码器得到每张图像的AU特征以及姿态特征，随后，两帧图像的AU特征被送入AU解码器，用于解码出AU位移场；两帧图像的姿态特征被送入姿态解码器，用于解码出姿态位移场。考虑到AU的变化是稀疏的，且AU位移场的数值与姿态位移场相比更小，我们为AU位移场添加了L1约束：

在目标图重建阶段，TCAE通过线性组合AU位移场和pose位移场，得到源图和目标图之间的整体位移场，进行图像重建：

在AU循环变换阶段，仅变换了AU的人脸图像被重新变换到源图，由此我们获得一个像素层面的一致性约束：

另外，对于变换了AU的人脸图像，其AU特征应该接近目标图像的AU特征，其姿态特征应该和源图的姿态特征一致，由此我们获得一个特征层面的一致性约束：

同理，在pose循环变化阶段，我们同样可以获得类似的像素及特征层面的一致性约束：

图3. TCAE的四个阶段示意图，四个阶段分别是特征解耦，图像重建，AU循环变换，以及pose循环变换。

4.实验结果

多个数据集上的实验证明，TCAE能够成功提取出人脸图像的AU及姿态特征。如图4所示，给定两张人脸图像（源图，目标图），TCAE能够仅仅改变源图的AU或者头部姿态。可视化的AU位移场呈现出运动方向的多样性。

在AU识别任务上，TCAE取得了与监督方法可比的性能。表1及表2的结果表明，TCAE明显优于其他自监督方法。在GFT数据集（该数据集存在大范围的头部姿态变化）上，TCAE的性能优于其他监督方法。

图4. 可视化结果

表1. BP4D及DISFA数据集评测结果

（评测标准：F1 值 (%)）

表2. GFT及EmotioNet数据集评测结果

（评测标准：F1 值 (%) ）

5.总结与展望

TCAE通过自监督的方法学习到了鲁棒的AU表征，实验证明该AU表征是鲁棒的，适用于AU分类任务的。可视化结果表明，TCAE具有潜在的人脸表情编辑价值。另外，TCAE在训练阶段使用了大量的无标签数据（近6000人，约10，000，000张图像），由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高，这一点在BERT的实验分析中也得到了印证：Good results on pre-training is >1,000x to 100,000 more expensive than supervised training。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1158

浏览量
41332
图像

图像

+关注

关注
2

文章
1091

浏览量
40747
数据集

数据集

+关注

关注
4

文章
1215

浏览量
25066

原文标题：【CVPR2019】“识面知心”——基于自监督学习的微表情特征表达

文章出处：【微信号：deeplearningclass，微信公众号：深度学习大讲堂】欢迎添加关注！文章转载请注明出处。

一种基于点、线和消失点特征的单目SLAM系统设计

本文提出了一种稳健的单目视觉SLAM系统，该系统同时利用点、线和消失点特征来进行精确的相机位姿估计和地图构建，有效解决了传统基于点特征的SLAM的局限性。

发表于 03-21 17:07 •183次阅读

<b class='flag-5'>一种</b>基于点、线和消失点<b class='flag-5'>特征</b>的单目SLAM系统设计

一种基于基础模型对齐的自监督三维空间理解方法

三维空间理解是推动自动驾驶、具身智能等领域中智能系统实现环境感知、交互的核心任务，其中3D语义占据预测 (Semantic Occupancy Prediction) 对三维场景进行精准的体素级建模。然而，当前主流方法严重依赖大规模标注数据，制约了模型的可扩展性和泛化能力。

发表于 03-18 15:01 •191次阅读

<b class='flag-5'>一种</b>基于基础模型对齐的<b class='flag-5'>自</b><b class='flag-5'>监督</b>三维空间理解<b class='flag-5'>方法</b>

纸基微流控芯片的加工方法和优势

纸基微流控芯片的加工方法主要包括激光切割、压印技术、喷墨打印技术、层压技术和表面改性技术等。以下是这些加工方法的具体介绍：激光切割激光切割是一种利用激光束对材料进行切削的加工

发表于 02-26 15:15 •184次阅读

一种基于因果路径的层次图卷积注意力网络

机电系统中的故障检测对其可维护性和安全性至关重要。然而，系统监测变量往往具有复杂的联系，很难表征它们的关系并提取有效的特征。本文开发了一种基于因果路径的层次图卷积注意力网络（HGCAN），以提高复杂

发表于 11-12 09:52 •679次阅读

<b class='flag-5'>一种</b>基于因果路径的层次图卷积注意力网络

数据准备指南：10种基础特征工程方法的实战教程

在数据分析和机器学习领域，从原始数据中提取有价值的信息是一个关键步骤。这个过程不仅有助于辅助决策，还能预测未来趋势。为了实现这一目标，特征工程技术显得尤为重要。特征工程是将原始数据转化

发表于 11-01 08:09 •454次阅读

数据准备指南：10<b class='flag-5'>种</b>基础<b class='flag-5'>特征</b>工程<b class='flag-5'>方法</b>的实战教程

一种创新的动态轨迹预测方法

本文提出了一种动态轨迹预测方法，通过结合历史帧和历史预测结果来提高预测的稳定性和准确性。它引入了历史预测注意力模块，以编码连续预测之间的动态关系，并通过三重因子注意力模块实现了最先进的性能。本方法能够生成准确且稳定的未来轨迹，这

发表于 10-28 14:34 •695次阅读

<b class='flag-5'>一种</b>创新的动态轨迹预测<b class='flag-5'>方法</b>

一种简单高效配置FPGA的方法

本文描述了一种简单高效配置FPGA的方法，该方法利用微处理器从串行外围接口（SPI）闪存配置FPGA设备。这种方法减少了硬件组件、板空间和成本。

发表于 10-24 14:57 •1089次阅读

<b class='flag-5'>一种</b>简单高效配置FPGA的<b class='flag-5'>方法</b>

特征工程实施步骤

数据中提取数值表示以供无监督模型使用的方法（例如，试图从之前非结构化的数据集中提取结构）。特征工程包括这两种情况，以及更多内容。数据从业者通常依赖ML和深度学习算法

发表于 10-23 08:07 •570次阅读

一种利用wireshark对远程服务器/路由器网络抓包方法

发表于 09-21 08:03 •4089次阅读

<b class='flag-5'>一种</b>利用wireshark对远程服务器/路由器网络抓包<b class='flag-5'>方法</b>

华芯微电子取得一种过流保护电路专利

创新引领，技术突破！苏州华芯微电子股份有限公司近日荣获《一种过流保护电路》发明专利，标志着公司在微电子领域再攀新高峰！

发表于 08-19 15:03 •574次阅读

一种无透镜成像的新方法

使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜为了研究微电子或光子元件中的纳米级图案，一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。层析成像是一种强大的无

发表于 07-19 06:20 •561次阅读

<b class='flag-5'>一种</b>无透镜成像的新<b class='flag-5'>方法</b>

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律，从而提取有用的特征表示。这种训练方

发表于 07-09 18:06 •1114次阅读

rup是一种什么模型

RUP（Rational Unified Process，统一建模语言）是一种软件开发过程模型，它是一种迭代和增量的软件开发方法。RUP是由Rational Software公司（现为

发表于 07-09 10:13 •1735次阅读

人脸检测的五种方法各有什么特征和优缺点

人脸检测是计算机视觉领域的一个重要研究方向，主要用于识别和定位图像中的人脸。以下是五种常见的人脸检测方法及其特征和优缺点的介绍：基于肤色的方法

发表于 07-03 14:47 •1179次阅读

接触器的自锁接线方法

接触器是一种用于控制大功率设备或电路的自动开关，广泛应用于工业自动化、电力系统、家用电器等领域。接触器的自锁接线方法是指在接触器的控制电路中加入自锁回路，使得接触器在接通后能够保持闭合

发表于 06-30 09:15 •2680次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一种基于视频流的自监督特征表达方法

评论