0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于视频流的自监督特征表达方法

5b9O_deeplearni 来源:深度学习大讲堂 2019-12-08 07:32 次阅读

编者按:著名心理学家Paul Ekman和研究伙伴W.V.Friesen,通过对脸部肌肉动作与对应表情关系的研究,于1976年创制了“面部运动编码系统”,而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本,有监督学习的方法往往会导致模型过拟合。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号, 得到提纯的面部动作特征用于微表情识别。

1.研究背景

面部运动编码系统 (FACS,Facial Action Coding System)从人脸解剖学的角度,定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的肌肉运动,如图1所示,AU9表示“皱鼻”,AU12表示“嘴角拉伸”。各种动作单元之间可以自由组合,对应不同的表情。如“AU4(降低眉毛)+AU5(上眼睑上升)+AU24(嘴唇相互按压)”这一组合对应“愤怒”这一情绪状态。

面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展,其原因在于不同的AU分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个AU,需要耗费一名AU标注专家30分钟。目前学术界已发布的AU数据集只包含了有限的采集对象,以及有限的人脸图像(如2017年CMU发布的GFT数据集有96个人,约35,000张人脸图像)。

图1. 面部动作单元示例

当前已有的工作多采用人脸区域分块、注意力机制等方法学习人脸局部区域的AU特征,这类方法在训练阶段需要利用精确标注的AU标签,由于目前业界发布的AU数据集人数及图像总量不足,采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象,这无疑限制了其实际使用效果。

我们提出了一种能够在不依赖AU标签的前提下,从人脸视频数据中自动学习AU表征的方法(Twin-Cycle Autoencoder,简称TCAE)。TCAE用于后续的AU识别任务时,只需要利用训练数据训练一个分类器即可,显著减少了所需的训练数据,并提升了模型的泛化能力。

2.方法概述

如图2所示,该方法以两帧人脸图像(源图,目标图)之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于,模型只有感知并理解了人脸图像中各个面部动作单元的状态(AU是否激活),才能够将源图的面部动作转换为目标图像的面部动作。

图2. TCAE 设计图

考虑到两帧人脸图像之间的运动信息包含了AU以及头部姿态的运动分量,TCAE通过利用巧妙的自监督约束信号,使得模型能够分离出AU变化引起的运动分量,以及头部姿态变化引起的运动分量,从而得到提纯的AU特征。与其他监督方法,TCAE可以利用大量的无标注人脸视频,这类视频是海量的。与半监督或者弱监督方法相比, TCAE采用了自监督信号进行模型训练,避免了对数据或者标签的分布做出任何假设。

3.算法详解

如图3所示,TCAE包含四个阶段,分别是特征解耦,图像重建,AU循环变换,以及姿态(pose)循环变换。

给定两张人脸图像,TCAE在特征解耦阶段使用编码器得到每张图像的AU特征以及姿态特征,随后,两帧图像的AU特征被送入AU解码器,用于解码出AU位移场;两帧图像的姿态特征被送入姿态解码器,用于解码出姿态位移场。考虑到AU的变化是稀疏的,且AU位移场的数值与姿态位移场相比更小,我们为AU位移场添加了L1约束:

在目标图重建阶段,TCAE通过线性组合AU位移场和pose位移场,得到源图和目标图之间的整体位移场,进行图像重建:

在AU循环变换阶段,仅变换了AU的人脸图像被重新变换到源图,由此我们获得一个像素层面的一致性约束:

另外,对于变换了AU的人脸图像,其AU特征应该接近目标图像的AU特征,其姿态特征应该和源图的姿态特征一致,由此我们获得一个特征层面的一致性约束:

同理,在pose循环变化阶段,我们同样可以获得类似的像素及特征层面的一致性约束:

图3. TCAE的四个阶段示意图,四个阶段分别是特征解耦,图像重建,AU循环变换,以及pose循环变换。

4.实验结果

多个数据集上的实验证明,TCAE能够成功提取出人脸图像的AU及姿态特征。如图4所示,给定两张人脸图像(源图,目标图),TCAE能够仅仅改变源图的AU或者头部姿态。可视化的AU位移场呈现出运动方向的多样性。

在AU识别任务上,TCAE取得了与监督方法可比的性能。表1及表2的结果表明,TCAE明显优于其他自监督方法。在GFT数据集(该数据集存在大范围的头部姿态变化)上,TCAE的性能优于其他监督方法。

图4. 可视化结果

表1. BP4D及DISFA数据集评测结果

(评测标准:F1 值 (%))

表2. GFT及EmotioNet数据集评测结果

(评测标准:F1 值 (%) )

5.总结与展望

TCAE通过自监督的方法学习到了鲁棒的AU表征,实验证明该AU表征是鲁棒的,适用于AU分类任务的。可视化结果表明,TCAE具有潜在的人脸表情编辑价值。另外,TCAE在训练阶段使用了大量的无标签数据(近6000人,约10,000,000张图像),由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高,这一点在BERT的实验分析中也得到了印证:Good results on pre-training is >1,000x to 100,000 more expensive than supervised training。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1084

    浏览量

    40313
  • 图像
    +关注

    关注

    2

    文章

    1072

    浏览量

    40131
  • 数据集
    +关注

    关注

    4

    文章

    1189

    浏览量

    24470

原文标题:【CVPR2019】“识面知心”——基于自监督学习的微表情特征表达

文章出处:【微信号:deeplearningclass,微信公众号:深度学习大讲堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    [22]。就像平均池化样,最大池化是另一种用于减小特征图大小的常用方法。它通过仅取每个区域的最大值来获得最重要的特征。在机器学习中,池化
    发表于 05-11 20:01

    mapgis属性筛选表达

    篇文章中,我们将详细讨论MapGIS的属性筛选表达式,包括语法、操作符和函数等。 属性筛选表达式是一种在MapGIS中用于指定要素选择条件的代码。它由一组操作符、函数和属性字段组成,用于描述要筛选的要素的
    的头像 发表于 02-25 10:58 714次阅读

    Meta发布新型无监督视频预测模型“V-JEPA”

    Meta,这家社交媒体和科技巨头,近日宣布推出一种新型的无监督视频预测模型,名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注,因为它通过抽象性预测生成
    的头像 发表于 02-19 11:19 634次阅读

    语言模型的弱监督视频异常检测方法

    了局部Transformer的mask,从时序上将输入视频特征分割为多个等长块,令自注意力计算局限于块内,减少了冗余信息建模,降低计算复杂度。
    的头像 发表于 01-02 15:20 414次阅读
    语言模型的弱<b class='flag-5'>监督</b><b class='flag-5'>视频</b>异常检测<b class='flag-5'>方法</b>

    基于神经辐射场的自监督多相机占用预测

    本研究提出了一种监督的多摄相机3D占据预测方法,名为OccNeRF。该方法旨在解决无界场景的建模问题。
    的头像 发表于 01-02 14:53 243次阅读
    基于神经辐射场的自<b class='flag-5'>监督</b>多相机占用预测

    基于MT6853 安卓11.0,实现 RTSP视频的演示

    RTSP视频
    jf_87063710
    发布于 :2023年12月22日 10:06:17

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 909次阅读
    基于transformer和自<b class='flag-5'>监督</b>学习的路面异常检测<b class='flag-5'>方法</b>分享

    动态场景下的自监督单目深度估计方案

    监督单目深度估计的训练可以在大量无标签视频序列来进行,训练集获取很方便。但问题是,实际采集的视频序列往往会有很多动态物体,而自监督训练本身就是基于静态环境假设,动态环境下会失效。
    发表于 11-28 09:21 354次阅读
    动态场景下的自<b class='flag-5'>监督</b>单目深度估计方案

    一种利用几何信息的自监督单目深度估计框架

    本文方法一种监督的单目深度估计框架,名为GasMono,专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景中帧间大旋转和低纹理导致自
    发表于 11-06 11:47 224次阅读
    <b class='flag-5'>一种</b>利用几何信息的自<b class='flag-5'>监督</b>单目深度估计框架

    常见的ARM架构分为两一种是M系列另外一种是A系列,这两有什么区别啊?

    现在市面上常见的ARM架构分为两一种是M系列另外一种是A系列,这两有什么区别啊,用的时候他们般分别用在什么地方啊。
    发表于 10-26 07:00

    labview将视频转为比特

    labview怎么导入视频,然后再将其转化为比特?新手小白,求助各位大佬解答,最好能给个vi例子解释下,非常感谢
    发表于 10-18 23:58

    Java Lambda表达式的新特性

    Java Lambda表达式是Java 8中最重要的新特性之一。 它们是一种可传递的匿名函数,可以作为参数传递给方法或存储在变量中,因此可以在需要的时候调用它们。 基础 1. 简介 Lambda
    的头像 发表于 09-30 10:29 2359次阅读

    点-线特征联合的全景图像位姿解算方法

    使用真实场景的车载激光点云和两幅全景图像进行试验,验证点-线特征联合的位姿解算方法优于单纯的点特征解算方法
    的头像 发表于 09-29 08:01 442次阅读
    点-线<b class='flag-5'>特征</b>联合的全景图像位姿解算<b class='flag-5'>方法</b>

    定点数和浮点数的概念 浮点数二进制序列与指数表达式之间的转化

    浮点数小数点位置不固定,小数点是浮动的,其次浮点数提供了一种高效的数据表达方法,这种表示方法既可以表达很小的数据比如:3.14159、0.06789,也可以
    的头像 发表于 08-22 16:06 4823次阅读
    定点数和浮点数的概念 浮点数二进制序列与指数<b class='flag-5'>表达</b>式之间的转化

    五种先进的SSD故障预测特征选择方法盘点

    本文比较了没有特征选择(即使用所有学习特征)和五种最先进的特征选择方法(第II-C节)的WEFR的预测精度。对于五种最先进的特征选择
    发表于 07-12 09:09 1233次阅读
    五种先进的SSD故障预测<b class='flag-5'>特征</b>选择<b class='flag-5'>方法</b>盘点