0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种基于视频流的自监督特征表达方法

5b9O_deeplearni 来源:深度学习大讲堂 2019-12-08 07:32 次阅读

编者按:著名心理学家Paul Ekman和研究伙伴W.V.Friesen,通过对脸部肌肉动作与对应表情关系的研究,于1976年创制了“面部运动编码系统”,而利用微表情的“读心术”正是基于这一研究体系。由于该领域有限的数据集和高昂的标注成本,有监督学习的方法往往会导致模型过拟合。本文中,将为大家介绍中科院计算所VIPL组的CVPR2019新作:作者提出了一种基于视频流的自监督特征表达方法,通过利用巧妙的自监督约束信号, 得到提纯的面部动作特征用于微表情识别。

1.研究背景

面部运动编码系统 (FACS,Facial Action Coding System)从人脸解剖学的角度,定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的肌肉运动,如图1所示,AU9表示“皱鼻”,AU12表示“嘴角拉伸”。各种动作单元之间可以自由组合,对应不同的表情。如“AU4(降低眉毛)+AU5(上眼睑上升)+AU24(嘴唇相互按压)”这一组合对应“愤怒”这一情绪状态。

面部动作单元能够客观、精确、细粒度地描述人脸表情。然而昂贵的标注代价在很大程度上限制了AU识别问题的研究进展,其原因在于不同的AU分布在人脸的不同区域,表现为不同强度、不同尺度的细微变化。具体来说,为一分钟的人脸视频标注一个AU,需要耗费一名AU标注专家30分钟。目前学术界已发布的AU数据集只包含了有限的采集对象,以及有限的人脸图像(如2017年CMU发布的GFT数据集有96个人,约35,000张人脸图像)。

图1. 面部动作单元示例

当前已有的工作多采用人脸区域分块、注意力机制等方法学习人脸局部区域的AU特征,这类方法在训练阶段需要利用精确标注的AU标签,由于目前业界发布的AU数据集人数及图像总量不足,采用监督学习方法训练得到的模型往往呈现出在特定数据集上的过拟合现象,这无疑限制了其实际使用效果。

我们提出了一种能够在不依赖AU标签的前提下,从人脸视频数据中自动学习AU表征的方法(Twin-Cycle Autoencoder,简称TCAE)。TCAE用于后续的AU识别任务时,只需要利用训练数据训练一个分类器即可,显著减少了所需的训练数据,并提升了模型的泛化能力。

2.方法概述

如图2所示,该方法以两帧人脸图像(源图,目标图)之间的运动信息为监督信号,驱使模型提取出用于解码运动信息的图像特征。这个方法的理念在于,模型只有感知并理解了人脸图像中各个面部动作单元的状态(AU是否激活),才能够将源图的面部动作转换为目标图像的面部动作。

图2. TCAE 设计图

考虑到两帧人脸图像之间的运动信息包含了AU以及头部姿态的运动分量,TCAE通过利用巧妙的自监督约束信号,使得模型能够分离出AU变化引起的运动分量,以及头部姿态变化引起的运动分量,从而得到提纯的AU特征。与其他监督方法,TCAE可以利用大量的无标注人脸视频,这类视频是海量的。与半监督或者弱监督方法相比, TCAE采用了自监督信号进行模型训练,避免了对数据或者标签的分布做出任何假设。

3.算法详解

如图3所示,TCAE包含四个阶段,分别是特征解耦,图像重建,AU循环变换,以及姿态(pose)循环变换。

给定两张人脸图像,TCAE在特征解耦阶段使用编码器得到每张图像的AU特征以及姿态特征,随后,两帧图像的AU特征被送入AU解码器,用于解码出AU位移场;两帧图像的姿态特征被送入姿态解码器,用于解码出姿态位移场。考虑到AU的变化是稀疏的,且AU位移场的数值与姿态位移场相比更小,我们为AU位移场添加了L1约束:

在目标图重建阶段,TCAE通过线性组合AU位移场和pose位移场,得到源图和目标图之间的整体位移场,进行图像重建:

在AU循环变换阶段,仅变换了AU的人脸图像被重新变换到源图,由此我们获得一个像素层面的一致性约束:

另外,对于变换了AU的人脸图像,其AU特征应该接近目标图像的AU特征,其姿态特征应该和源图的姿态特征一致,由此我们获得一个特征层面的一致性约束:

同理,在pose循环变化阶段,我们同样可以获得类似的像素及特征层面的一致性约束:

图3. TCAE的四个阶段示意图,四个阶段分别是特征解耦,图像重建,AU循环变换,以及pose循环变换。

4.实验结果

多个数据集上的实验证明,TCAE能够成功提取出人脸图像的AU及姿态特征。如图4所示,给定两张人脸图像(源图,目标图),TCAE能够仅仅改变源图的AU或者头部姿态。可视化的AU位移场呈现出运动方向的多样性。

在AU识别任务上,TCAE取得了与监督方法可比的性能。表1及表2的结果表明,TCAE明显优于其他自监督方法。在GFT数据集(该数据集存在大范围的头部姿态变化)上,TCAE的性能优于其他监督方法。

图4. 可视化结果

表1. BP4D及DISFA数据集评测结果

(评测标准:F1 值 (%))

表2. GFT及EmotioNet数据集评测结果

(评测标准:F1 值 (%) )

5.总结与展望

TCAE通过自监督的方法学习到了鲁棒的AU表征,实验证明该AU表征是鲁棒的,适用于AU分类任务的。可视化结果表明,TCAE具有潜在的人脸表情编辑价值。另外,TCAE在训练阶段使用了大量的无标签数据(近6000人,约10,000,000张图像),由此可见使用自监督方法训练模型时数据利用的效率需要进一步提高,这一点在BERT的实验分析中也得到了印证:Good results on pre-training is >1,000x to 100,000 more expensive than supervised training。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40741
  • 图像
    +关注

    关注

    2

    文章

    1084

    浏览量

    40461
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24700

原文标题:【CVPR2019】“识面知心”——基于自监督学习的微表情特征表达

文章出处:【微信号:deeplearningclass,微信公众号:深度学习大讲堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种创新的动态轨迹预测方法

    本文提出了一种动态轨迹预测方法,通过结合历史帧和历史预测结果来提高预测的稳定性和准确性。它引入了历史预测注意力模块,以编码连续预测之间的动态关系,并通过三重因子注意力模块实现了最先进的性能。本方法能够生成准确且稳定的未来轨迹,这
    的头像 发表于 10-28 14:34 412次阅读
    <b class='flag-5'>一种</b>创新的动态轨迹预测<b class='flag-5'>方法</b>

    一种简单高效配置FPGA的方法

    本文描述了一种简单高效配置FPGA的方法,该方法利用微处理器从串行外围接口(SPI)闪存配置FPGA设备。这种方法减少了硬件组件、板空间和成本。
    的头像 发表于 10-24 14:57 601次阅读
    <b class='flag-5'>一种</b>简单高效配置FPGA的<b class='flag-5'>方法</b>

    特征工程实施步骤

    数据中提取数值表示以供无监督模型使用的方法(例如,试图从之前非结构化的数据集中提取结构)。特征工程包括这两情况,以及更多内容。数据从业者通常依赖ML和深度学习算法
    的头像 发表于 10-23 08:07 270次阅读
    <b class='flag-5'>特征</b>工程实施步骤

    一种利用wireshark对远程服务器/路由器网络抓包方法

    一种利用wireshark对远程服务器/路由器网络抓包方法
    的头像 发表于 09-21 08:03 2878次阅读
    <b class='flag-5'>一种</b>利用wireshark对远程服务器/路由器网络抓包<b class='flag-5'>方法</b>

    一种无透镜成像的新方法

    使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜 为了研究微电子或光子元件中的纳米级图案,一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。 层析成像是一种强大的无
    的头像 发表于 07-19 06:20 384次阅读
    <b class='flag-5'>一种</b>无透镜成像的新<b class='flag-5'>方法</b>

    神经网络如何用无监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律,从而提取有用的特征表示。这种训练方
    的头像 发表于 07-09 18:06 800次阅读

    rup是一种什么模型

    RUP(Rational Unified Process,统建模语言)是一种软件开发过程模型,它是一种迭代和增量的软件开发方法。RUP是由Rational Software公司(现为
    的头像 发表于 07-09 10:13 1261次阅读

    人脸检测的五种方法各有什么特征和优缺点

    人脸检测是计算机视觉领域的个重要研究方向,主要用于识别和定位图像中的人脸。以下是五常见的人脸检测方法及其特征和优缺点的介绍: 基于肤色的方法
    的头像 发表于 07-03 14:47 836次阅读

    介绍一种用于绝对定量的微腔式数字PCR微控芯片

    本文提出一种微腔式数字PCR微控芯片。作者将两层微结构背对背堆叠在起使得在不改变芯片平面面积的情况下使腔室数量和试剂容量增加倍,极大提升了检测灵敏度。
    的头像 发表于 03-04 10:15 877次阅读
    介绍<b class='flag-5'>一种</b>用于绝对定量的微腔式数字PCR微<b class='flag-5'>流</b>控芯片

    mapgis属性筛选表达

    篇文章中,我们将详细讨论MapGIS的属性筛选表达式,包括语法、操作符和函数等。 属性筛选表达式是一种在MapGIS中用于指定要素选择条件的代码。它由组操作符、函数和属性字段组成,用
    的头像 发表于 02-25 10:58 1645次阅读

    Meta发布新型无监督视频预测模型“V-JEPA”

    Meta,这家社交媒体和科技巨头,近日宣布推出一种新型的无监督视频预测模型,名为“V-JEPA”。这模型在视频处理领域引起了广泛关注,因为
    的头像 发表于 02-19 11:19 1018次阅读

    一种锂电池内水去除工艺方法

    一种锂电池内水去除工艺方法
    的头像 发表于 01-04 10:23 487次阅读
    <b class='flag-5'>一种</b>锂电池内水去除工艺<b class='flag-5'>方法</b>

    一种光固化通道数字微控芯片(pCDMF)

    数字PCR(dPCR)是一种用于核酸绝对定量的强大技术,具有超高灵敏度。然而,个不可或缺的过程——核酸提取(NAE)难以与dPCR整合到个单器件中,因为它们都涉及复杂的过程和精细
    的头像 发表于 01-03 10:35 712次阅读
    <b class='flag-5'>一种</b>光固化通道数字微<b class='flag-5'>流</b>控芯片(pCDMF)

    语言模型的弱监督视频异常检测方法

    了局部Transformer的mask,从时序上将输入视频特征分割为多个等长块,令注意力计算局限于块内,减少了冗余信息建模,降低计算复杂度。
    的头像 发表于 01-02 15:20 837次阅读
    语言模型的弱<b class='flag-5'>监督</b><b class='flag-5'>视频</b>异常检测<b class='flag-5'>方法</b>

    基于神经辐射场的监督多相机占用预测

    本研究提出了一种监督的多摄相机3D占据预测方法,名为OccNeRF。该方法旨在解决无界场景的建模问题。
    的头像 发表于 01-02 14:53 475次阅读
    基于神经辐射场的<b class='flag-5'>自</b><b class='flag-5'>监督</b>多相机占用预测